Как предприятия могут приручить машинное обучение с помощью краудсорсинга

Машинное обучение (ML) все чаще становится конкурентным преимуществом для многих предприятий, особенно в сфере финансов, здравоохранения и розничной торговли. Однако очень немногие фирмы могут использовать потенциал машинного обучения для создания ценности для бизнеса, создания конкурентных преимуществ или создания глубоких исследовательских идей. Часть проблемы заключается в том, что машинное обучение включает в себя развитие основных компетенций в нескольких дисциплинах, как указано ниже:

Поиск массивных обучающих наборов данных
Обработка данных (очистка данных, проектирование функций и т. д.)
Построение прогнозной модели с использованием статистических методов и языков машинного обучения
Проверка точности прогностической модели

Хотя фирмы, как правило, имеют в штате экспертов в предметной области, которые разбираются в конкретных данных, основная проблема, с которой они сталкиваются, заключается в поиске необходимых данных в масштабе для разработки более реалистичных прогностических моделей. Еще одна проблема, с которой сталкиваются фирмы, — отсутствие собственного опыта со знанием передовых статистических методов или знаний в области языков машинного обучения для создания действительно надежных прогностических моделей.

Платформы краудсорсинга для машинного обучения достигают совершеннолетия для решения этих проблем. Некоторые коммерческие и некоммерческие предприятия используют краудсорсинговые платформы и услуги машинного обучения для достижения своих бизнес-целей или предоставления более глубокого понимания.

Ключевые краудсорсинговые платформы машинного обучения

Использование краудсорсинга для сбора/очистки массивных наборов обучающих данных

Основной проблемой при создании оптимальной прогностической модели является масштаб обучающих данных. Как говорится, мусор на входе, мусор на выходе, и это очень верно в случае разработки хороших моделей прогнозирования для машинного обучения. Без достаточного количества или релевантных обучающих данных предсказанные модели бесполезны, даже если лежащие в их основе алгоритмы очень эффективны.

Все сводится к наличию правильных ингредиентов, то есть:

Огромные наборы обучающих данных, т.е. достаточные данные
Релевантные для бизнеса данные
Очищенные данные

Несколько краудсорсинговых платформ, таких как Amazon Mechanical Turk и CrowdFlower, стремятся решить эту проблему с поиском наборов данных и очисткой данных.

Механический турок Amazon (AMT)

AMT — это краудсорсинговая площадка, где компания может публиковать и координировать широкий набор задач человеческого интеллекта (HIT), таких как классификация, маркировка, опросы и обработка данных изображений. Используя глобальную рабочую силу по требованию, можно помечать, маркировать и очищать массивные наборы данных, чтобы сделать данные готовыми в качестве обучающих данных для прогнозного моделирования.

Одной из проблем, связанных с открытыми платформами, такими как AMT, является необработанный характер обучающих данных. Из-за масштаба обучающих данных несколько турков будут работать с одним и тем же набором данных, и результирующий набор выходных данных не будет однородным. Кроме того, чаще всего люди, работающие над этими наборами данных, не имеют предварительных знаний в предметной области, что приводит к сомнительному качеству набора данных, влияющему на качество прогнозирования модели.

Понимая эту проблему, несколько известных фирм используют свои собственные внутренние платформы для контроля качества генерируемых наборов данных. Наличие внутренней обработки также поможет, поскольку опыт предметной области можно использовать для создания более значимых наборов обучающих данных. Используя мощные инструменты обработки данных, такие как Trifacta, внутренние бизнес-аналитики и специалисты по данным могут автоматизировать некоторые действия по обработке данных.

Использование краудсорсинга для создания моделей машинного обучения

Как только будет получено достаточное количество наборов данных для обучения, следующей большой проблемой, с которой столкнутся фирмы, станет разработка точных прогностических моделей, отвечающих потребностям их бизнеса. Несколько инновационных компаний предоставляют краудсорсинговые платформы и услуги для удовлетворения этой потребности. С обширной армией высококвалифицированных статистиков и специалистов по данным эти поставщики помогают предприятиям решать проблемы построения сложных моделей.

Давайте подробнее рассмотрим некоторые платформы, решающие построение моделей для машинного обучения.

Каггл

Kaggle является пионером отрасли в этой области и, по сути, представляет собой рынок, который объединяет фирмы, ищущие решения для науки о данных, с экспертами по машинному обучению. Kaggle революционизирует ландшафт машинного обучения и науки о данных с единственной целью: размещать проблемы науки о данных для решения важнейших бизнес-задач.Фирмы публикуют сложные задачи на портале в форме соревнований с фиксированным расписанием. для их решения, и человек или команда, зарегистрированные на портале, могут отправить решение.

Некоторые недавние соревнования, опубликованные на сайте Kaggle ниже.

Источник: Kaggle

Как видно из приведенных выше конкурсов, размещенных в Kaggle, несколько ключевых лидеров отрасли используют эту платформу для решения критических потребностей бизнеса. Одна из проблем с обучающими наборами данных Kaggle заключается в том, что они редко бывают чистыми и должны быть очищены перед построением прогностических моделей. Похоже, это не мешает конкурентам и компаниям участвовать в платформе, и Kaggle имеет одно из самых высоких показателей по количеству участников в конкурсе по созданию моделей машинного обучения.

Числа

Numerai — это фонд управления активами/хедж-фонд стоимостью 15 миллиардов долларов, который использует краудсорсинговую конкуренцию для получения прогнозов, которые они используют внутри для совершения сделок. Их претензия на известность приводит к сетевым эффектам в финансовой индустрии, как указано ниже.

«Самый ценный хедж-фонд 21 века станет первым хедж-фондом, который привнесет сетевой эффект в распределение капитала». — Числа

Numerai фокусируется на чистом прогнозировании (например, прогнозировании цен на акции) на основе созданных моделей. Numerai также шифрует свои финансовые данные, покупает права на данные и очищает данные перед тем, как представить их конкурентам. В этом смысле данные уже очищены, и конкурентам не нужно беспокоиться об очистке данных, в отличие от Kaggle.

Основываясь на данных, предоставленных Numerai, кажется, что частота ошибок для предсказания постоянно снижается, начиная с 0,5 (случайное предсказание).

Numerai меняет индустрию хедж-фондов, передавая свои инвестиционные решения анонимным экспертам по машинному обучению по всему миру. Если Numerai добьется успеха, это может проложить путь к новой модели управления инвестициями в финансовой индустрии.

Испытания МЕЧТЫ

DREAM Challenges является частью миссии открытой науки и представляет собой некоммерческую инициативу сообщества, включающую исследования университетов. В центре внимания задач DREAM находятся в основном биология и медицина.

«Поскольку объем и сложность данных продолжают расти, крайне важно разработать новые методы использования данных для решения фундаментальных вопросов, чтобы лучше понять и улучшить биологические науки и здоровье человека». — вызовы МЕЧТЫ

Задачи DREAM создаются и управляются экспертами в области системной биологии, статистики и дизайна задач, чтобы результаты были последовательными и воспроизводимыми. Организаторы конкурса предварительно тестируют все данные и прогнозы и разрабатывают специальные методики подсчета очков, чтобы обеспечить качество данных и тщательную оценку результатов. Как и в случае с Numerai, обучающие данные очищаются и предоставляются штатными экспертами в предметной области по мере того, как конкуренты разрабатывают прогностические модели, точность и надежность которых будет оцениваться организаторами.

Как показано в некоторых недавних задачах DREAM ниже, сообщество DREAM пытается использовать мудрость толпы, чтобы найти новые и лучшие вычислительные модели для решения фундаментальных проблем в биологических науках и здоровье человека.

Источник: вызовы DREAM.

Заключительные замечания

Такие платформы, как Numerai, Kaggle и DREAM Challenges, помогают компаниям решать сложные задачи построения моделей машинного обучения путем создания статистической модели черного ящика, скрывающей основные сложности. Платформы для сбора данных, такие как AMT и CrowdFlower, пытаются решить проблемы с достоверностью данных за счет ручных усилий краудсорсинговой рабочей силы.

Фирмы должны принять принципы открытых данных, чтобы в полной мере воспользоваться преимуществами модели краудсорсинга. Конфиденциальность данных является ключевой проблемой, которая не позволяет компаниям полностью использовать эту модель. Эта проблема особенно актуальна в случае коммерческих предприятий, где данные могут быть собственностью по своему характеру. Одним из возможных решений является использование модели шифрования данных Numerai, чтобы можно было решить проблемы конфиденциальности данных. По мере того, как ИИ становится повсеместным, вертикальные нишевые модели краудсорсинга и машинное обучение как услуга могут стать следующей большой волной в этой области.

Первоначально опубликовано на https://www.linkedin.com.