ML | Prueba de chi-cuadrado para selección de funciones

| | | | | | | | | | | | | | | |

Prueba de chi-cuadrado para la extracción de características:
Prueba de chi-cuadrado se utiliza para características categóricas en el conjunto de datos. Calculamos el chi-cuadrado entre cada objeto y objetivo y seleccionamos el número deseado de objetos con los mejores valores de chi-cuadrado. Determina si la relación entre dos variables categóricas en la muestra reflejará su relación real en la población.
Se proporciona una puntuación de chi-cuadrado:

donde —

Frecuencia observada = No. de observaciones de clase
Frecuencia esperada = No. de observaciones esperadas de clase si no hubiera una relación entre la característica y el objetivo.

Implementación de Python para la selección de características de chi-cuadrado:


# Descargar bibliotecas

de sklearn.datasets importar cargar_iris

de sklearn.feature_selection import SelectKBest

from < /código> sklearn.feature_selection importar chi2


# Cargando datos del iris

iris_dataset = load_iris()


# Crear funciones y objetivos

X = iris_dataset.data

y = iris_dataset.target


# Convertir a datos categóricos transformando datos a números enteros

X = X. astype ( int )


# Dos características con las estadísticas chi-cuadrado más altas seleccionadas

chi2_features < clase de código = "palabra clave"> = SelectKBest (chi2, k = 2 )

X_kbest_features = chi2_features.fit_transform (X, y)


# Funciones reducidas

imprimir ( `Número de función original:` , X .shape [ 1 ])

imprimir ( `Número de función reducido:` , X_kbest.shape [ 1 ])

Salir:

Número de función original: 4 Número de función reducido: 2