Наука о данных, Машинное обучение

Человеческий компонент в машинном обучении

Благодаря автоматизации в машинном обучении люди по-прежнему необходимы для установления связи между данными, алгоритмами и реальным миром.

Введение

Поскольку автоматизация становится все более популярной в области машинного обучения, можно задаться вопросом, не станет ли в какой-то момент роль людей в машинном обучении несущественной.

При создании модели машинного обучения важно помнить, что модель должна давать значимые и интерпретируемые результаты в реальных жизненных ситуациях. Здесь на помощь приходит человеческий опыт. Человек (квалифицированный специалист в области науки о данных) должен изучить результаты, полученные с помощью алгоритмов и компьютеров, чтобы убедиться, что результаты соответствуют реальным ситуациям, прежде чем рекомендовать модель для развертывания. Благодаря автоматизации в машинном обучении люди по-прежнему необходимы для установления связи между данными, алгоритмами и реальным миром.

В этой статье мы обсудим 3 основных компонента модели машинного обучения, а именно: 1) компонент данных, 2) компонент алгоритма и 3) компонент реального мира. Наконец, мы рассмотрим различные роли, которые играет человек (квалифицированный специалист в области науки о данных), чтобы убедиться, что 3 компонента модели машинного обучения взаимодействуют друг с другом значимым и полезным образом.

II. Обзор основных компонентов модели машинного обучения

Как показано на рисунке ниже, существует 3 основных компонента модели машинного обучения.

1. Компонент данных

Этот компонент состоит из всего, что касается данных, и включает в себя следующее:

i) Источники данных

В этом разделе рассматриваются все источники данных, такие как

а) план экспериментов или опросов для сбора данных

б) закупка данных у организаций, которые занимаются добычей и хранением больших наборов данных.

в) использование открытого набора данных

г) моделирование необработанных данных для объединения их с фактическими выборочными данными

ii) Подготовка и преобразование данных

Это касается предварительной обработки необработанных данных для преобразования их в форму, готовую для анализа или построения модели, и включает такие темы, как

а) обработка недостающих данных

б) условное исчисление данных

в) кодирование категориальных данных

г) идентификация прогностических характеристик и целевых характеристик

д) масштабирование данных, например, стандартизация или нормализация функций

е) выбор характеристик и уменьшение размерности

ж) продвинутые методы преобразования данных, такие как PCA и LDA

Программное обеспечение, которое можно использовать для подготовки и преобразования данных, включает:

  • Пакет панд
  • Excel
  • R
  • Python

2. Компонент алгоритма

Это алгоритмы, которые применяются к данным, чтобы извлечь из данных полезную и информативную информацию. Алгоритмы можно разделить на описательные, предсказательные или предписывающие.

i) Алгоритмы описательной аналитики

К ним относятся пакеты, которые можно применять к данным в целях визуализации, например, алгоритмы для создания гистограмм, линейных графиков, гистограмм, диаграмм рассеяния, парных диаграмм, диаграмм плотности, qqplots и т. Д. Некоторые из наиболее распространенных пакетов для описательной аналитики включают

а) Матплотлиб

б) Ggplot2

в) Сиборн

ii) Алгоритмы прогнозной аналитики

Это алгоритмы, которые используются для построения прогнозных моделей. Некоторые из наиболее распространенных пакетов для прогнозной аналитики включают

  • Пакет учебных материалов Sci-kit
  • Пакет Caret
  • Tensorflow

Алгоритмы прогнозной аналитики можно разделить на следующие группы:

а) Обучение с учителем (непрерывное прогнозирование переменных)

  • Базовая регрессия
  • Мультирегрессионный анализ
  • Регуляризованная регрессия

б) Обучение с учителем (прогнозирование дискретных переменных)

  • Классификатор логистической регрессии
  • Машинный классификатор опорных векторов
  • Классификатор K-ближайшего соседа (KNN)
  • Наивный байесовский
  • Классификатор дерева решений
  • Классификатор случайного леса

в) Обучение без учителя

  • Алгоритм кластеризации Kmeans

iii) Алгоритмы предписывающей аналитики

Это алгоритмы, которые можно использовать для прописывания активного курса на основе данных, полученных на основе данных. Некоторые алгоритмы предписывающей аналитики включают

а) Вероятностное моделирование

в) Методы оптимизации и исследование операций

в) Моделирование Монте-Карло

3. Компонент реального мира

Каждая модель машинного обучения должна давать значимые и интерпретируемые результаты в реальных жизненных ситуациях. Прогностическая модель должна быть проверена на соответствие реальности, чтобы считаться значимой и полезной. Поэтому человеческий вклад и опыт всегда необходимы и полезны для понимания результатов, полученных с помощью алгоритмов.

III. Человеческий компонент аналитического моделирования

Благодаря автоматизации в машинном обучении люди по-прежнему необходимы для установления связи между данными, алгоритмами и реальным миром. В этом разделе мы обсуждаем роли, которые выполняет специалист по человеческим данным для соединения трех основных компонентов модели машинного обучения, уже обсуждавшейся выше.

а) Проверьте качество и надежность данных.

Данные являются ключом к любой задаче науки о данных и машинного обучения. Данные бывают разных видов, например числовые, категориальные, текстовые, графические, голосовые и видеоданные. Прогностическая сила модели зависит от качества данных, используемых при ее построении. Поэтому чрезвычайно важно, чтобы перед вводом данных в модель квалифицированный специалист проверил качество и надежность данных, поскольку даже наборы данных, которые кажутся идеальными, могут содержать ошибки. Есть несколько факторов, которые могут снизить качество ваших данных:

  • Неверные данные
  • Недостающие данные
  • Выбросы в данных
  • Избыточность данных
  • Несбалансированные данные
  • Отсутствие изменчивости данных
  • Динамические данные
  • Размер данных

Дополнительные сведения см. В следующей статье: Данные всегда несовершенные.

б) Проверьте тип и качество используемого алгоритма.

Поскольку существует несколько различных типов алгоритмов машинного обучения, квалифицированный специалист должен проверить, является ли алгоритм, выбранный для использования, подходящим и наиболее оптимальным. Следовательно, квалифицированный специалист должен оценить выходные данные алгоритма, чтобы определить уровень ошибки и неопределенности в выходных данных.

в) Обеспечьте соблюдение этических стандартов.

Вопросы этики и конфиденциальности являются обязательными в науке о данных и машинном обучении. Квалифицированный специалист необходим, чтобы гарантировать, что данные и алгоритм, используемые в модели машинного обучения, не приведут к преднамеренной предвзятости в результатах. Этические стандарты должны соблюдаться на всех этапах, от сбора данных до анализа, построения модели, тестирования и применения. Следует проявлять осторожность, чтобы избежать фальсификации результатов с целью введения в заблуждение или манипулирования покупателем или общественностью.

г) Убедитесь, что продукция приносит пользу широкой публике

В качестве примера можно использовать модель машинного обучения для разработки активных химических компонентов, которые будут использоваться для производства вакцины для борьбы с определенным заболеванием. В этом случае потребуется квалифицированный персонал для оценки эффективности вакцины путем проведения клинических испытаний, чтобы убедиться, что вакцина безопасна и точна.

IV. Резюме

Таким образом, мы обсудили несколько причин, по которым человек (квалифицированный специалист в области науки о данных) по-прежнему незаменим в эпоху автоматизации в машинном обучении. Поскольку автоматизация получает все большее распространение в машинном обучении, люди по-прежнему будут необходимы для установления связи между данными, алгоритмами и реальным миром и для обеспечения высоких этических стандартов в машинном обучении.