Наука о данных, часть 6: понимание извлечения данных и обработки данных.
Источники данных
Источниками данных могут быть портал, приложения, Excel, Google Таблицы, API, CSV, сервер. Какие данные нам нужны для предварительной обработки? Реальные данные грязные (неполные, зашумленные, противоречивые), и без качественных данных не будет качественных результатов майнинга (качественное принятие решений должно опираться на качественные данные, хранилища данных должны последовательно интегрировать высококачественные данные). Кроме того, нет согласованности в содержании данных. Это связано с тем, что неполные данные и зашумленные данные, содержащие ошибки или аномалии, повлияют на ожидаемые результаты.
Блок предварительной обработки данных
- Очистка данных — может использоваться для очистки данных от шума и устранения несоответствий.
- Интеграция данных — объединение данных из нескольких источников данных в единое хранилище данных, например хранилище данных.
- Преобразование данных — может использоваться для сжатия данных до меньшего интервала.
- Спецификация данных — масштаб данных можно уменьшить, например, путем кластеризации, удаления избыточных функций или кластеризации.
Метод предварительной обработки данных
- Метод редукции теории множеств
- Метод предварительной обработки данных мультиколлинеарности
- Метод предварительной обработки данных на основе выборки хэш-функции
- Метод предварительной обработки данных на основе генетического алгоритма
- Метод предварительной обработки данных на основе нейронной сети для веб-майнинга
Очистка данных
- Шум — шум представляет собой случайные ошибки и отклонения измеряемых переменных, включая неверные значения или отклонения от ожидаемых значений. Существует несколько методов обработки шумовых данных: метод биннинга, метод кластеризации для выявления выбросов и возврата.
- Свободное значение — отсутствующее значение. Наиболее распространенным методом является заполнение вакантного значения, например замена вакантного значения глобальной константой, использование среднего значения атрибута для заполнения вакантного значения или классификация всех кортежей в соответствии с определенными атрибутами и заполнение отсутствующих значений. со средним значением атрибутов в той же категории
- Очистка грязных данных. Не все данные в разнородных базах данных являются правильными. Часто встречаются неполные, противоречивые, неточные и повторяющиеся данные. Эти данные считаются грязными данными. Эти данные вбрасываются в процесс майнинга, превращая его в хаос, что приводит к ненадежному результату. Грязные данные можно очистить следующими способами:
A) Ручная реализация.
B) Специально написанное приложение.
C) Использование вероятностной статистики, чтобы избежать обнаружения аномальных числовых записей.
D) Обнаружение и удаление повторяющихся записей. - Удалить уникальные атрибуты
- Удалить повторяющиеся атрибуты
- Удалить игнорируемое поле
Интеграция данных
- Проблема распознавания объектов. Многие данные поступают из нескольких источников данных. И данные иногда не обязательно совпадают. Например, другое имя для одного и того же атрибута используется в другой базе данных, но значение представляет один и тот же объект. Эту проблему можно решить путем интеграции в хранилище данных.
- Проблема избыточности. Интеграция данных часто приводит к избыточности данных, например, к тому, что один и тот же атрибут появляется несколько раз, унифицированные имена атрибутов несовместимы, избыточность между атрибутами может быть обнаружена с помощью анализа первой проверки, а затем удалена.
- Обнаружение конфликта значений данных — для одного и того же атрибута значение из разных источников данных может отличаться. Это может быть связано с представлением, масштабом или кодировкой, типом данных, несогласованностью единиц измерения и длиной поля.
Преобразование данных
- Найдите характеристическое представление данных
- Используйте размерное преобразование, чтобы уменьшить количество эффективных переменных
- Найдите инвариант данных, включая нормализацию, спецификацию, преобразование, вращение, проекцию и другие операции. Нормализация относится к комбинации наборов кортежей в соответствии с размерностью значения атрибута. Нормализация определяет соответствие между несколькими значениями атрибута и заданным виртуальным значением. Для различных характеристик числовых атрибутов его обычно можно разделить на проблемы нормализации числовых атрибутов с непрерывными и разбросанными значениями.
Спецификация данных/протокол данных
- Объединяйте данные в соответствии с семантической иерархической структурой, определяющей связь между значениями атрибутов кортежа. Спецификация данных может значительно сократить количество кортежей и повысить эффективность вычислений. Стратегия сокращения данных в основном включает в себя агрегацию кубов данных, уменьшение размерности, сжатие данных, числовое сжатие, дискретизацию и разделение концепций.
- Размерная спецификация — уменьшите объем данных, удалив ненужный атрибут.
- Сжатие данных — делится на сжатие без потерь и сжатие с потерями. Наиболее популярными и эффективными методами сжатия данных с потерями являются вейвлет-преобразование и анализ главных компонент. Вейвлет-преобразование полезно для разреженных или искаженных данных и данных с упорядоченными атрибутами. Очень хороший компрессионный эффект.
- Числовое сокращение.Числовое сокращение уменьшает объем данных, выбирая альтернативное, меньшее представление данных. Метод числовой обработки может быть параметрическим или непараметрическим. Параметрический метод заключается в использовании модели для оценки данных, нужно только хранить параметры, без необходимости хранить фактические данные. 2 типа параметризованных численных методов редукции: линейная регрессия и множественная регрессия; логлинейная модель: приближенное многомерное распределение вероятностей в дискретном наборе атрибутов. Есть также 3 вида числовых методов обработки без параметров: гистограмма, кластеризация и выборка.
- Иерархия понятий — дискретизация числовых атрибутов путем сбора и замены понятий более низкого уровня понятиями более высокого уровня. Иерархия концепций может использоваться для сокращения данных. Хотя при таком обобщении детали теряются, обобщенные данные более содержательны и легче для понимания и требуют меньше места, чем исходные данные. Для числовых атрибутов из-за разнообразия возможных диапазонов значений данных и частого обновления значений данных трудно объяснить концепцию иерархии. Иерархия концепций числовых атрибутов может быть построена автоматически в соответствии с анализом распределения данных, таким как группирование, анализ гистограмм, кластерный анализ, дискретизация на основе энтропии и методы естественного деления и сегментации для создания числовых концептуальных иерархий. Пользовательский эксперт отображает частичный порядок или общий порядок атрибутов на уровне режима для получения иерархической концепции; объясняется только набор атрибутов, но не объясняется их частичный порядок. Система генерирует атрибуты в соответствии с количеством различных значений каждого порядка атрибутов, автоматически создавая содержательную иерархию понятий.
Инженерия данных
- Как хороший инженер данных, вы должны знать Hadoop, MySQL, Linux, Java, ETL, хранилища данных, базы данных, Oracle, большие данные, Python, анализ данных, бизнес-аналитику, Hive, Unix и JavaScript в качестве набора навыков.
- Отвечает за построение эффективной архитектуры данных, оптимизацию обработки данных и поддержку крупномасштабных систем данных.
- Используйте оболочку (CLI), SQL и python/Scala для создания конвейеров ETL, автоматизации задач файловой системы и оптимизации операций с базой данных, чтобы повысить ее производительность.
- Узнайте об AWS, Google Cloud Platform и Microsoft Azure.
- http://www.mlebook.com/
- Собирайте данные из разных легальных источников — парсинг, API, базы данных, общедоступные репозитории.
- Затем используйте библиотеки, такие как pandas и NumPy, для анализа данных.
После того, как эти шаги завершены, визуализация данных имеет решающее значение, поскольку она становится полезным знанием или информацией для пользователя. Обработка данных — это процесс преобразования и отображения одной формы необработанных данных в другой формат с целью сделать ее более подходящей и полезной для различных последующих целей, таких как аналитика и визуализация данных.
Следующая глава будет посвящена визуализации данных.
Спасибо за чтение.
Если вы нашли какие-либо из моих статей полезными или полезными, рассмотрите возможность бросить мне кофе, чтобы помочь поддержать мою работу или оказать мне покровительство😊, используя
И последнее, но не менее важное: если вы еще не являетесь участником Medium и планируете им стать, я прошу вас сделать это по следующей ссылке. Я получу часть вашего членского взноса без каких-либо дополнительных затрат для вас.
Больше контента на plainenglish.io