Azure Machine Learning, Información mutua y selección de características basada en filtro

La tecnología avanza y cuando te dedicas a ella no te queda otra que, “renovarte o morir”.

El mundo del Data Science me parece, a la vez, fascinante y muy complejo. En mi aprendizaje hay veces que me encuentro con conceptos totalmente nuevos y que requieren de un esfuerzo extra para comprender su utilidad. Me imagino que esto me ocurre, por la falta de una base solida de conocimientos, sobre todo en lo que se refiere a Estadística.

La semana pasada, jugueteando un poco con Azure ML, pude aprender una funcionalidad nueva y desde mi punto de vista, muy útil.

El escenario es el siguiente: Contamos con un dataset que contiene una gran cantidad de características. Nos gustaría considerar únicamente, aquellas cuyo valor predictivo sea el mas alto, descartando así las características más irrelevantes. El subconjunto obtenido será utilizado para entrenar el modelo.

Para ilustrar el ejemplo usaremos uno de los datasets disponibles en Azure. Tras unas transformaciones previas, vemos que el dataset contiene 4 columnas ‘Categorical’, 18 numéricas y nuestra variable de respuesta (Label).

22 características acompañan a nuestra variable de respuesta
Label es nuestra columna ‘objetivo’.

De las 22 características originales, escogeremos las 18 más significativas para la predicción de nuestra variable de respuesta.

Para ello, utilizaremos el modulo Feature Selection > Filter Based Feature Selection

Seleccionar la opción Filter Based Feature Selection
Seleccionar la opción Filter Based Feature Selection

 

Y lo configuraremos de la siguiente manera:

  • Feature Scoring Method: Mutual Information
  • Operate on feature columns only: seleccionado
  • Target Column: Label (mi variable de respuesta)
  • Number of desired features: 18
Parametrizando el módulo 'Filter Based Feature Selection'
Parametrizando el módulo ‘Filter Based Feature Selection’

 

Este módulo creará un nuevo dataset con 18 características junto con nuestra columna objetivo ‘Label’. Cada característica será puntuada según sea su correlación con la columna objetivo ‘Label’ siguiendo el algoritmo de ‘Información Mutua’.

La información mutua de dos variables aleatorias es una cantidad que mide la dependencia mutua de las dos variables, es decir, mide la reducción de incertidumbre de una variable aleatoria X, debido al conocimiento del valor de otra variable aleatoria Y (Wikipedia)

Las características con las clasificaciones mas altas se mantienen

Filtered Based Feature Selection - Filtered dataset
Filtered Based Feature Selection >> Filtered dataset muetra el dataset resultante

 

El dataset Features muestra la puntuación asociada a cada característica.

Filtered Based Feature Selection - Features
Filtered Based Feature Selection >> Features muestra el ranking de características

 

Resumiendo, mediante el uso del módulo Filter Based Feature Selection y siguiendo el algoritmo de ‘información mutua’, hemos podido seleccionar las 18 características que tienen mayor correlación con la columna objetivo ‘Label’, sobre un total de 22. Gracias a esto, el proceso de entrenamiento del modelo será más eficiente.

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.