Биннинг в интеллектуальном анализе данных

| | | | | | | | | |

Группирование данных – это метод предварительной обработки данных, используемый для сведения к минимуму влияния небольших ошибок наблюдения. Исходные значения данных ‚Äã‚Äã делятся на небольшие диапазоны, известные как интервалы, а затем заменяются общим вычисленным значением для этого интервала. Это сглаживает входные данные, а также может снизить вероятность переобучения в случае небольших наборов данных.

Существует 2 метода разделения данных на блоки:

  • Равночастотное бинирование: бины имеют одинаковую частоту.
  • Равноширинное бинированиеg: бины имеют одинаковую ширину с диапазоном каждого бина. как [мин + w], [мин + 2w] ‚ ¶. [min + nw], где w = (max ‚Ämin) / (число бинов).

Равночастотное бинирование

Ввод: [5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] Вывод: [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] 

Биннинг равной ширины:

Ввод: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] Вывод: [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215] 

Реализация метода биннинга

# равная частота def equifreq(arr1, m) : a = len(arr1) n = int(a / m) для i в диапазоне (0, m): arr = [] для j в диапазоне (i * n, (i + 1) * n): если j > = a: break arr = arr + [arr1[j]] print(arr) # равная ширина def equalwidth(arr1, m): a = len(arr1) w = int((max(arr1) - min(arr1)) / m) min1 = min(arr1) arr = [] для i в диапазоне (0, m + 1): arr = arr + [min1 + w * i] arri=[] для i в диапазоне (0, m): temp = [] для j в arr1: если j >= arr[i] и j <= arr[i+1]: temp += [j] arri += [temp] print(arri) # данные для группирования данных = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # количество бины m = 3 print("бинирование по равной частоте") equifreq(данные, m) print("бинирование по равной ширине") equalwidth(data, 3) 

Вывод:

одинаковая частота биннинг [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] биннинг равной ширины [[5, 10, 11, 13, 15, 35, 50, 55, 72] ], [92], [204, 215]] 

Что такое бинирование данных?

Бинирование, также называемое дискретизацией, представляет собой метод уменьшения мощности непрерывных и дискретных данных. Категоризация группирует связанные значения в категории, чтобы уменьшить количество различных значений.

Категоризация может значительно улучшить использование ресурсов и время отклика построения модели без существенной потери качества модели. Категоризация может улучшить качество модели, укрепив взаимосвязь между атрибутами.

Контролируемое группирование – это форма интеллектуального группирования, в которой важные характеристики данных используются для определения границ контейнера. При контролируемом бинировании пределы бина определяются деревом решений с одним предиктором, которое учитывает совместное распределение с пунктом назначения. Контролируемая категоризация может использоваться для числовых и категориальных атрибутов.





Обработка данных изображения

В контексте обработки изображений объединение — это процесс объединения группы пикселей в один пиксель. Таким образом, при биннинге 2x2 массив из 4 пикселей становится большим пикселем [1], уменьшая общее количество пикселей.

Эта агрегация, хотя и связана с потерей информации, уменьшает объем обрабатываемых данных, тем самым облегчая анализ. Например, группировка данных также может уменьшить влияние шума считывания на обрабатываемое изображение (за счет более низкого разрешения).

Пример использования

Гистограммы являются примером агрегирования данных. используется для наблюдения за базовыми распределениями. Обычно они происходят в одномерном пространстве и с регулярными интервалами для удобства просмотра.

Слияние данных можно использовать, когда небольшие инструментальные сдвиги в спектральных измерениях масс-спектрометрии (МС) или ядерно-магнитного резонанса (ЯМР) неверно истолкованы как представляющие разные компоненты при отправке набора профилей данных. к анализу распознавания образов. Простой способ решить эту проблему — использовать методы кластеризации, которые снижают спектральное разрешение ровно настолько, чтобы гарантировать, что данный пик остается в своей ячейке, несмотря на небольшие спектральные сдвиги между анализами. Например, в ЯМР ось химического сдвига может быть дискретизирована и грубо разделена на интервалы, а в МС спектральные точности могут быть округлены до целых значений — атомных единиц массы. Кроме того, некоторые системы цифровых камер включают автоматическое группирование пикселей для повышения контрастности изображения.

Биннинг также используется в машинном обучении для ускорения метода улучшения дерева решений для контролируемой классификации и регрессии в таких алгоритмах, как Microsoft LightGBM и градиент. Дерево классификации усиления. на основе гистограммы scikit-learn.

Преимущества (за) сглаживания данных

Сглаживание данных проясняет понимание различных важных скрытых закономерностей в наборе данных. Сглаживание данных можно использовать для прогнозирования тенденций. Прогнозы очень помогают принимать правильные решения в нужное время.

Сглаживание данных помогает получить точные результаты из данных.

Недостатки сглаживания данных

Сглаживание данных не всегда дает четкое объяснение закономерностей между данными. Некоторые точки данных можно проигнорировать, сосредоточив внимание на других точках данных.