Наука о данных, часть 6: понимание извлечения данных и обработки данных.

Источники данных

Источниками данных могут быть портал, приложения, Excel, Google Таблицы, API, CSV, сервер. Какие данные нам нужны для предварительной обработки? Реальные данные грязные (неполные, зашумленные, противоречивые), и без качественных данных не будет качественных результатов майнинга (качественное принятие решений должно опираться на качественные данные, хранилища данных должны последовательно интегрировать высококачественные данные). Кроме того, нет согласованности в содержании данных. Это связано с тем, что неполные данные и зашумленные данные, содержащие ошибки или аномалии, повлияют на ожидаемые результаты.

Блок предварительной обработки данных

  1. Очистка данных — может использоваться для очистки данных от шума и устранения несоответствий.
  2. Интеграция данных — объединение данных из нескольких источников данных в единое хранилище данных, например хранилище данных.
  3. Преобразование данных — может использоваться для сжатия данных до меньшего интервала.
  4. Спецификация данных — масштаб данных можно уменьшить, например, путем кластеризации, удаления избыточных функций или кластеризации.

Метод предварительной обработки данных

  1. Метод редукции теории множеств
  2. Метод предварительной обработки данных мультиколлинеарности
  3. Метод предварительной обработки данных на основе выборки хэш-функции
  4. Метод предварительной обработки данных на основе генетического алгоритма
  5. Метод предварительной обработки данных на основе нейронной сети для веб-майнинга

Очистка данных

  1. Шум — шум представляет собой случайные ошибки и отклонения измеряемых переменных, включая неверные значения или отклонения от ожидаемых значений. Существует несколько методов обработки шумовых данных: метод биннинга, метод кластеризации для выявления выбросов и возврата.
  2. Свободное значение — отсутствующее значение. Наиболее распространенным методом является заполнение вакантного значения, например замена вакантного значения глобальной константой, использование среднего значения атрибута для заполнения вакантного значения или классификация всех кортежей в соответствии с определенными атрибутами и заполнение отсутствующих значений. со средним значением атрибутов в той же категории
  3. Очистка грязных данных. Не все данные в разнородных базах данных являются правильными. Часто встречаются неполные, противоречивые, неточные и повторяющиеся данные. Эти данные считаются грязными данными. Эти данные вбрасываются в процесс майнинга, превращая его в хаос, что приводит к ненадежному результату. Грязные данные можно очистить следующими способами:
    A) Ручная реализация.
    B) Специально написанное приложение.
    C) Использование вероятностной статистики, чтобы избежать обнаружения аномальных числовых записей.
    D) Обнаружение и удаление повторяющихся записей.
  4. Удалить уникальные атрибуты
  5. Удалить повторяющиеся атрибуты
  6. Удалить игнорируемое поле

Интеграция данных

  1. Проблема распознавания объектов. Многие данные поступают из нескольких источников данных. И данные иногда не обязательно совпадают. Например, другое имя для одного и того же атрибута используется в другой базе данных, но значение представляет один и тот же объект. Эту проблему можно решить путем интеграции в хранилище данных.
  2. Проблема избыточности. Интеграция данных часто приводит к избыточности данных, например, к тому, что один и тот же атрибут появляется несколько раз, унифицированные имена атрибутов несовместимы, избыточность между атрибутами может быть обнаружена с помощью анализа первой проверки, а затем удалена.
  3. Обнаружение конфликта значений данных — для одного и того же атрибута значение из разных источников данных может отличаться. Это может быть связано с представлением, масштабом или кодировкой, типом данных, несогласованностью единиц измерения и длиной поля.

Преобразование данных

  1. Найдите характеристическое представление данных
  2. Используйте размерное преобразование, чтобы уменьшить количество эффективных переменных
  3. Найдите инвариант данных, включая нормализацию, спецификацию, преобразование, вращение, проекцию и другие операции. Нормализация относится к комбинации наборов кортежей в соответствии с размерностью значения атрибута. Нормализация определяет соответствие между несколькими значениями атрибута и заданным виртуальным значением. Для различных характеристик числовых атрибутов его обычно можно разделить на проблемы нормализации числовых атрибутов с непрерывными и разбросанными значениями.

Спецификация данных/протокол данных

  • Объединяйте данные в соответствии с семантической иерархической структурой, определяющей связь между значениями атрибутов кортежа. Спецификация данных может значительно сократить количество кортежей и повысить эффективность вычислений. Стратегия сокращения данных в основном включает в себя агрегацию кубов данных, уменьшение размерности, сжатие данных, числовое сжатие, дискретизацию и разделение концепций.
  1. Размерная спецификация — уменьшите объем данных, удалив ненужный атрибут.
  2. Сжатие данных — делится на сжатие без потерь и сжатие с потерями. Наиболее популярными и эффективными методами сжатия данных с потерями являются вейвлет-преобразование и анализ главных компонент. Вейвлет-преобразование полезно для разреженных или искаженных данных и данных с упорядоченными атрибутами. Очень хороший компрессионный эффект.
  3. Числовое сокращение.Числовое сокращение уменьшает объем данных, выбирая альтернативное, меньшее представление данных. Метод числовой обработки может быть параметрическим или непараметрическим. Параметрический метод заключается в использовании модели для оценки данных, нужно только хранить параметры, без необходимости хранить фактические данные. 2 типа параметризованных численных методов редукции: линейная регрессия и множественная регрессия; логлинейная модель: приближенное многомерное распределение вероятностей в дискретном наборе атрибутов. Есть также 3 вида числовых методов обработки без параметров: гистограмма, кластеризация и выборка.
  4. Иерархия понятий — дискретизация числовых атрибутов путем сбора и замены понятий более низкого уровня понятиями более высокого уровня. Иерархия концепций может использоваться для сокращения данных. Хотя при таком обобщении детали теряются, обобщенные данные более содержательны и легче для понимания и требуют меньше места, чем исходные данные. Для числовых атрибутов из-за разнообразия возможных диапазонов значений данных и частого обновления значений данных трудно объяснить концепцию иерархии. Иерархия концепций числовых атрибутов может быть построена автоматически в соответствии с анализом распределения данных, таким как группирование, анализ гистограмм, кластерный анализ, дискретизация на основе энтропии и методы естественного деления и сегментации для создания числовых концептуальных иерархий. Пользовательский эксперт отображает частичный порядок или общий порядок атрибутов на уровне режима для получения иерархической концепции; объясняется только набор атрибутов, но не объясняется их частичный порядок. Система генерирует атрибуты в соответствии с количеством различных значений каждого порядка атрибутов, автоматически создавая содержательную иерархию понятий.

Инженерия данных

  • Как хороший инженер данных, вы должны знать Hadoop, MySQL, Linux, Java, ETL, хранилища данных, базы данных, Oracle, большие данные, Python, анализ данных, бизнес-аналитику, Hive, Unix и JavaScript в качестве набора навыков.
  • Отвечает за построение эффективной архитектуры данных, оптимизацию обработки данных и поддержку крупномасштабных систем данных.
  • Используйте оболочку (CLI), SQL и python/Scala для создания конвейеров ETL, автоматизации задач файловой системы и оптимизации операций с базой данных, чтобы повысить ее производительность.
  • Узнайте об AWS, Google Cloud Platform и Microsoft Azure.
  • http://www.mlebook.com/
  • Собирайте данные из разных легальных источников — парсинг, API, базы данных, общедоступные репозитории.
  • Затем используйте библиотеки, такие как pandas и NumPy, для анализа данных.

После того, как эти шаги завершены, визуализация данных имеет решающее значение, поскольку она становится полезным знанием или информацией для пользователя. Обработка данных — это процесс преобразования и отображения одной формы необработанных данных в другой формат с целью сделать ее более подходящей и полезной для различных последующих целей, таких как аналитика и визуализация данных.

Следующая глава будет посвящена визуализации данных.

Спасибо за чтение.

Если вы нашли какие-либо из моих статей полезными или полезными, рассмотрите возможность бросить мне кофе, чтобы помочь поддержать мою работу или оказать мне покровительство😊, используя

Патреон

Ko-fi.com

купитькофе

И последнее, но не менее важное: если вы еще не являетесь участником Medium и планируете им стать, я прошу вас сделать это по следующей ссылке. Я получу часть вашего членского взноса без каких-либо дополнительных затрат для вас.





Больше контента на plainenglish.io