Prueba de chi-cuadrado para la extracción de características:
Prueba de chi-cuadrado se utiliza para características categóricas en el conjunto de datos. Calculamos el chi-cuadrado entre cada objeto y objetivo y seleccionamos el número deseado de objetos con los mejores valores de chi-cuadrado. Determina si la relación entre dos variables categóricas en la muestra reflejará su relación real en la población.
Se proporciona una puntuación de chi-cuadrado:
donde —
Frecuencia observada = No. de observaciones de clase
Frecuencia esperada = No. de observaciones esperadas de clase si no hubiera una relación entre la característica y el objetivo.
Implementación de Python para la selección de características de chi-cuadrado:
# Descargar bibliotecas
de
sklearn.datasets
importar
import
SelectKBest
from < /código>
# Cargando datos del iris
iris_dataset
=
load_iris()
# Crear funciones y objetivos
X
=
iris_dataset.data
y
=
iris_dataset.target
# Convertir a datos categóricos transformando datos a números enteros
X
=
# Dos características con las estadísticas chi-cuadrado más altas seleccionadas
chi2_features
< clase de código = "palabra clave"> =
X_kbest_features
=
chi2_features.fit_transform (X, y)
# Funciones reducidas
imprimir
1
])
imprimir
(
`Número de función reducido:`
, X_kbest.shape [
Salir:
Número de función original: 4 Número de función reducido: 2