Основы предварительной обработки данных

Основные сведения и методы предварительной обработки данных

Что такое предварительная обработка данных?

Согласно Techopedia, предварительная обработка данных - это метод интеллектуального анализа данных, который включает преобразование необработанных данных в понятный формат. Реальные данные часто бывают неполными, непоследовательными и / или в них отсутствуют определенные модели поведения или тенденции, и они могут содержать много ошибок. Предварительная обработка данных - проверенный метод решения таких проблем.

Суад А. Аласади и Весам С. Бхайа в своем журнале заявляют, что предварительная обработка данных является одним из наиболее важных этапов интеллектуального анализа данных, который связан с подготовкой и преобразованием данных набор данных и в то же время стремится сделать обнаружение знаний более эффективным.

Другими словами, мы можем сказать, что предварительная обработка данных - это этап интеллектуального анализа данных, который предоставляет методы, которые могут помочь нам одновременно понять и обнаружить данные.

Зачем нужна предварительная обработка данных?

Мирела Данубиану в своем журнале утверждает, что реальные данные, как правило, неполные, зашумленные и непоследовательные. Это может привести к низкому качеству собранных данных и, как следствие, к низкому качеству моделей, построенных на таких данных. Чтобы решить эти проблемы, предварительная обработка данных предоставляет операции, которые могут упорядочить данные в надлежащей форме для лучшего понимания процесса интеллектуального анализа данных.

Мы видим, что изображение выше является примером необработанных данных. Изображение, показанное выше, является образцом данных радужной оболочки глаза. Мы не можем понять поведение или тенденции данных. Следовательно, нам нужно преобразовать или организовать его, чтобы преобразовать в правильный формат, используя предварительную обработку данных.

Какие методы предоставляются при предварительной обработке данных?

Существует четыре метода предварительной обработки данных, которые объясняются A. Сивакумар и Р. Гунасундари в своем журнале. Это очистка / очистка данных, интеграция данных, преобразование данных и сокращение данных.

1. Очистка / очистка данных

Реальные данные часто бывают неполными, зашумленными и непоследовательными. Процедуры очистки / очистки данных пытаются заполнить недостающие значения, сгладить шум при выявлении выбросов и исправить несоответствия в данных.

Данные могут быть зашумленными или иметь неверные значения атрибутов. Из-за следующего могут быть неисправны используемые инструменты сбора данных. Возможно, при вводе данных произошли человеческие или компьютерные ошибки. Также могут возникнуть ошибки при передаче данных.

«Грязные» данные могут запутать процедуру интеллектуального анализа данных. Хотя в большинстве программ майнинга есть некоторые процедуры, они работают с неполными или зашумленными данными, которые не всегда надежны. Следовательно, полезным шагом предварительной обработки данных является выполнение данных с помощью некоторых процедур очистки / очистки данных.

2. Интеграция данных

Интеграция данных участвует в задаче анализа данных, которая объединяет данные из нескольких источников в единое хранилище данных, как в хранилище данных. Эти источники могут включать несколько баз данных, кубы данных или плоские файлы. Вопрос, который следует учитывать при интеграции данных, - это интеграция схемы. Это сложно.

Как можно «сопоставить» реальные сущности из нескольких источников данных? Это называется проблемой идентификации объекта. Например, как аналитик данных может быть уверен, что customer_id в одной базе данных и cust_number в другой относятся к одному и тому же объекту? Ответ - метаданные. Базы данных и хранилища данных обычно имеют метаданные. Проще говоря, метаданные - это данные о данных.

Метаданные используются, чтобы помочь избежать ошибок при интеграции схемы. Еще один важный вопрос - избыточность. Атрибут может быть избыточным, если он получен из другой таблицы. Несоответствие в именах атрибутов или измерений также может вызвать избыточность в результирующем наборе данных.

3. Преобразование данных

Данные преобразуются в соответствующие формы майнинга. Преобразование данных включает в себя следующее:

В нормализации, когда данные атрибута масштабируются, чтобы попасть в небольшой указанный диапазон, например от -1,0 до 1,0 или от 0 до 1,0.
Сглаживание работает для удаления шума из данных. К таким методам относятся биннинг, кластеризация и регрессия.
При агрегировании к данным применяются операции сводки или агрегирования. Например, ежедневные данные о продажах могут быть агрегированы для вычисления ежемесячных и годовых общих сумм. Этот шаг обычно используется при построении куба данных для анализа данных с различной степенью детализации.
При обобщении данных низкоуровневые или примитивные / необработанные данные заменяются концепциями более высокого уровня за счет использования иерархий концепций. Например, категориальные атрибуты обобщаются до понятий более высокого уровня - от улицы до города или страны. Точно так же значения числовых атрибутов могут быть сопоставлены с концепциями более высокого уровня, такими как возраст в молодом, среднем или старшем возрасте.

4. Сокращение объемов данных

Сложный анализ данных и интеллектуальный анализ огромных объемов данных могут занять очень много времени, что делает такой анализ непрактичным или невозможным. Методы сокращения данных полезны при анализе сокращенного представления набора данных без нарушения целостности исходных данных и получения качественных знаний. Стратегии сокращения объема данных включают следующее:

В агрегировании куба данных операции агрегирования применяются к данным при построении куба данных.
При уменьшении размеров нерелевантные, слабо релевантные или избыточные атрибуты или измерения могут быть обнаружены и удалены.
При сжатии данных механизмы кодирования используются для уменьшения размера набора данных. Методы, используемые для сжатия данных, - это вейвлет-преобразование и анализ основных компонентов.
В сокращении численности данные заменяются или оцениваются альтернативными и меньшими представлениями данных, такими как параметрические модели (которые хранят только параметры модели вместо фактических данных, например, регрессионные и логлинейные модели) или непараметрические методы (например, кластеризация, выборка , и использование гистограмм).
В разделах «Дискретизация» и «Создание иерархии понятий» значения необработанных данных для атрибутов заменяются диапазонами или более высокими концептуальными уровнями. Иерархии понятий позволяют выполнять интеллектуальный анализ данных на нескольких уровнях абстракции и являются мощными инструментами для интеллектуального анализа данных.