ML | Teste qui-quadrado para seleção de recursos

Teste de qui-quadrado para extração de recursos:
teste de qui-quadrado é usado para recursos categóricos no conjunto de dados. Calculamos o qui-quadrado entre cada objeto e alvo e selecionamos o número desejado de objetos com os melhores valores de qui-quadrado. Ele determina se a relação entre duas variáveis categóricas na amostra refletirá sua relação real na população.
A pontuação do qui-quadrado é fornecida:

onde —

Frequência observada = Nº de observações da aula
Frequência esperada = Nº de observações esperadas da aula se não houver relação entre o recurso e o destino.

Implementação Python para seleção de recurso Qui-Quadrado:


# Baixar bibliotecas

de sklearn.datasets import load_iris

de sklearn.feature_selection importar SelectKBest

de sklearn.feature_selection importar chi2


# Carregando dados de íris

iris_dataset = load_iris()


# Cria funções e objetivos

X = iris_dataset.data

y = iris_dataset.target


# Converta em dados categóricos transformando dados em inteiros

X = X. astype ( int )


# Dois recursos com as estatísticas de qui-quadrado mais altas selecionadas

chi2_features < classe de código = "palavra-chave"> = SelectKBest (chi2, k = 2 )

X_kbest_features = chi2_features.fit_transform (X, y)


# Recursos reduzidos

print ( `Número do recurso original:` , X .shape [ 1 ])

print ( `Número de recurso reduzido:` , X_kbest.shape [ 1 ])

Sair:

Número do recurso original: 4 Número do recurso reduzido: 2