Критерий хи-квадрат для извлечения признаков:
критерий хи-квадрат используется для категориальных признаков в наборе данных. Мы вычисляем хи-квадрат между каждым объектом и целью и выбираем желаемое количество объектов с лучшими значениями хи-квадрат. Он определяет, будут ли отношения между двумя категориальными переменными в выборке отражать их фактические отношения в популяции.
Выдается показатель Хи-квадрат:
где —
Наблюдаемая частота = количество наблюдений класса
Ожидаемая частота = количество ожидаемых наблюдений класса если не было никакой связи между функцией и целью.
Реализация Python для выбора функции Chi-Square:
# Загрузите библиотеки
from
sklearn.datasets
импортировать
load_iris
from
sklearn.feature_selection
import
SelectKBest
from
sklearn.feature_selection
import
chi2
# Загрузка данных диафрагмы
iris_dataset
=
load_iris ()
# Создание функций и целей
X
=
iris_dataset.data
y
=
iris_dataset.target
# Преобразование в категориальные данные путем преобразования данных в целые числа
X
=
X. astype (
int
)
# Выбраны два объекта с наивысшей статистикой хи-квадрат
chi2_features
< класс кода = "ключевое слово"> = SelectKBest (chi2, k
=
2
)
X_kbest_features
=
chi2_features.fit_transform (X, y)
# Сокращенные функции
print
(
`Исходный номер функции:`
, X .shape [
1
])
print
(
`Сокращенный номер функции:`
, X_kbest.shape [
1
])
Выход:
Исходный номер функции: 4 Уменьшенный номер функции: 2