Teste de qui-quadrado para extração de recursos:
teste de qui-quadrado é usado para recursos categóricos no conjunto de dados. Calculamos o qui-quadrado entre cada objeto e alvo e selecionamos o número desejado de objetos com os melhores valores de qui-quadrado. Ele determina se a relação entre duas variáveis categóricas na amostra refletirá sua relação real na população.
A pontuação do qui-quadrado é fornecida:
onde —
Frequência observada = Nº de observações da aula
Frequência esperada = Nº de observações esperadas da aula se não houver relação entre o recurso e o destino.
Implementação Python para seleção de recurso Qui-Quadrado:
# Baixar bibliotecas
de
sklearn.datasets
import
load_iris
de
sklearn.feature_selection
importar
SelectKBest
de
sklearn.feature_selection
importar
chi2
# Carregando dados de íris
iris_dataset
=
load_iris()
# Cria funções e objetivos
X
=
iris_dataset.data
y
=
iris_dataset.target
# Converta em dados categóricos transformando dados em inteiros
X
=
X. astype (
int
)
# Dois recursos com as estatísticas de qui-quadrado mais altas selecionadas
chi2_features
< classe de código = "palavra-chave"> = SelectKBest (chi2, k
=
2
)
X_kbest_features
=
chi2_features.fit_transform (X, y)
# Recursos reduzidos
print
(
`Número do recurso original:`
, X .shape [
1
])
print
(
`Número de recurso reduzido:`
, X_kbest.shape [
1
])
Sair:
Número do recurso original: 4 Número do recurso reduzido: 2