ML | Критерий хи-квадрат для выбора функции

| | | | | | | | | | | | | | | |

Критерий хи-квадрат для извлечения признаков:
критерий хи-квадрат используется для категориальных признаков в наборе данных. Мы вычисляем хи-квадрат между каждым объектом и целью и выбираем желаемое количество объектов с лучшими значениями хи-квадрат. Он определяет, будут ли отношения между двумя категориальными переменными в выборке отражать их фактические отношения в популяции.
Выдается показатель Хи-квадрат:

где —

Наблюдаемая частота = количество наблюдений класса
Ожидаемая частота = количество ожидаемых наблюдений класса если не было никакой связи между функцией и целью.

Реализация Python для выбора функции Chi-Square:


# Загрузите библиотеки

from sklearn.datasets импортировать load_iris

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2


# Загрузка данных диафрагмы

iris_dataset = load_iris ()


# Создание функций и целей

X = iris_dataset.data

y = iris_dataset.target


# Преобразование в категориальные данные путем преобразования данных в целые числа

X = X. astype ( int )


# Выбраны два объекта с наивысшей статистикой хи-квадрат

chi2_features < класс кода = "ключевое слово"> = SelectKBest (chi2, k = 2 )

X_kbest_features = chi2_features.fit_transform (X, y)


# Сокращенные функции

print ( `Исходный номер функции:` , X .shape [ 1 ])

print ( `Сокращенный номер функции:` , X_kbest.shape [ 1 ])

Выход:

Исходный номер функции: 4 Уменьшенный номер функции: 2