Большие данные, Машинное обучение и Искусственный интеллект — три модных слова в современном бизнесе. Если ваш бизнес не соответствует ни одному из трех критериев, вы рискуете прослыть опоздавшим, неэффективным или, черт возьми, некрутым, особенно с ужасным набором миллениалов, создающим вкус. Хуже всего то, что вы можете упустить следующий шанс стать единорогом — компанией стоимостью в миллиард долларов, такой как Google и Facebook, которая развернула методы больших данных, машинного обучения и искусственного интеллекта, чтобы превратить множество точек данных в чистое золото. Различные методологии, тенденции и идеи в области больших данных, машинного обучения и искусственного интеллекта будут подробно обсуждаться на предстоящей 7-й ежегодной конференции по финансированию больших данных, которая состоится в Cornell Tech в Нью-Йорке 9–10 мая 2019 г. (для регистрации нажмите здесь). : https://bit.ly/2UTAVIr).

В то время как многим людям и компаниям нравится разбрасывать новые модные термины, немногие имеют четкое понимание, не говоря уже о различии терминов. В этой статье делается попытка пролить свет на широко обсуждаемые области, их сходства и различия.

Мы начнем с машинного обучения, которое было первой дисциплиной, которая применила эффективность, вызванную вычислительной мощностью вычислений, для решения задач. Как и традиционный статистический и эконометрический анализ, машинное обучение было разработано, чтобы ответить на вопросы о природе:

  • Как это работает?
  • Почему последовательность входов X генерирует выходы Y, как показано на рисунке 1?

Возможно, самая ранняя идея машинного обучения восходит к теории управления 1950-х годов — науке о петлях обратной связи и минимизации ошибок, которая стала возможной с изобретением и распространением компьютерных технологий. В середине 1980-х машинное обучение придумало нейронные сети, которые до сих пор остаются краеугольным камнем машинного обучения. Нейронная сеть — это продвинутый инструмент оптимизации, который методом проб и ошибок обеспечивает сложные функциональные взаимосвязи между набором наблюдаемых входных и выходных данных. Он отличается от большинства традиционных методов прогнозирования и эконометрического моделирования. В традиционной статистике или эконометрике исследователи делают предположения о распределении данных перед анализом. В отличие от традиционалистов, специалисты по машинному обучению не делают никаких предположений о данных и позволяют данным (и компьютерам) решать, что подходит лучше всего. На рисунках 2 и 3 показаны различия между традиционным статистическим анализом и машинным обучением.

Основным недостатком машинного обучения всегда была его вычислительная сложность. Чтобы точно отобразить или подобрать функцию, преобразующую входные данные X в выходные данные Y, компьютерным программам потребовались миллионы итераций. Итеративный характер машинного обучения привел к двум основным проблемам: переобучению и (относительно) медленной обработке. Подгонка относится к ситуации, когда выходная функция близко соответствует наблюдаемым данным X и Y, но, возможно, имеет мало общего с «истинным» соотношением между X и Y, поскольку многие наблюдения еще не доступны. Проблема чрезмерной подгонки преследует такие отрасли, как финансы, где данные, используемые традиционно, собирались ежедневно и, как следствие, дорого генерировались и использовались: всего 750 ежедневных торговых наблюдений составляют полные три года финансовых данных!

Ученые придумали способы наказать слишком близкое соответствие X к Y, оставив модели «дышать» — чтобы учесть потенциальную ошибку моделирования и более успешное применение к еще невидимым данным. Тем не менее, у чистого машинного обучения были проблемы с внедрением, в основном из-за стоимости и неэффективности тяжелой обработки, необходимой для итеративного подхода к алгоритмам машинного обучения. Количество запусков программы машинного обучения для создания надежного нелинейного прогноза может исчисляться сотнями тысяч, что может стоить больших затрат времени и вычислительной мощности.

Загадка вычислительной мощности была в значительной степени решена вычислительной отраслью с помощью облачных технологий (аутсорсинг вычислений на удаленных и дешевых фермах серверов) и, как правило, постоянно снижающейся стоимости компьютеров из-за ненасытного спроса на технологии со стороны людей всех слоев общества.

В то время как новые, более мощные компьютерные чипы изменили и временной аспект машинного обучения, сами по себе компьютерные инновации не ускорили машинное обучение настолько, чтобы сделать его повседневной рутиной исследователей. Однако наука о больших данных сделала именно это. Благодаря передовым математическим методам наука о данных оптимизирует оптимизацию машинного обучения, делая его быстрым и полезным для частых приложений. Рисунок 4 иллюстрирует эту идею.

Чем именно занимается наука о данных? Применительно ли к алгоритмам машинного обучения или к необработанным данным, наука о данных определяет основные характеристики имеющихся данных. Эти характеристики часто можно обобщить с помощью того, что давно известно как характеристические значения, или, альтернативно, сингулярные значения, собственные значения из немецкого языка или главные компоненты. Эти дескрипторы данных фиксируют статистические свойства данных в сжатой и удобной для компьютера форме, разъясняя ключевые движущие силы данных в процессе. Вооружившись ключевыми факторами, набор данных о задачах исследователей мгновенно превращается в управляемую задачу оптимизации меньшего масштаба. Лучше всего то, что характеристические значения способны отражать «ощущение» всей совокупности данных, математически простираясь далеко за пределы наблюдаемых X и Y, которые мы передали им, или алгоритмы машинного обучения для потребления. Таким образом, проблема переобучения в значительной степени исчезает, и появляются современные машинные выводы.

О каких умозаключениях идет речь? Выводы, которые сделали миллиарды долларов для таких компаний, как Google и Facebook, конечно! И в то время как Google и Facebook сосредоточились на моделировании поведения человека в сети, данные других отраслей могут принести в умелые руки свои собственные горшочки с золотом.

А как насчет искусственного интеллекта, этого зверя, который вызывает образы киборгов в самых известных фильмах Арнольда Шварценеггера? Получается, что искусственный интеллект — это прямой побочный продукт науки о данных. Традиционный статистический или эконометрический анализ требует, чтобы исследователь сформировал «гипотезу», задав вопрос, является ли конкретная идея истинной или ложной с учетом данных. Неудачный побочный эффект анализа заключается в том, что результаты могут быть настолько же хороши, насколько хороши входные данные: исследователь, не способный придумать гипотезу «нестандартно», застрянет на обыденных выводах. Большие данные стирают границы, вместо этого сообщая исследователю ключевые характеристики и факторы данных. В этом смысле большие данные объясняют исследователю все возможные гипотезы без каких-либо предвзятых представлений. Новые, расширенные границы умозаключений превращают даже самых тупых ученых-бухгалтеров в суперзвезд, способных видеть самые странные события, появляющиеся на их соответствующих горизонтах. Таким образом, искусственный интеллект является результатом работы специалистов по обработке и анализу данных, которые позволяют данным говорить за себя, а это может привести к захватывающим дух результатам и бизнес-решениям.

Айрин Олдридж — специалист по данным, исследователь, приглашенный профессор Корнельского университета и управляющий директор AbleMarkets, платформы глубокого обучения и больших данных для финансов. Она является соавтором книги Наука о больших данных в финансах: математика и приложения (ожидается) и организатором ежегодной финансовой конференции по большим данным, форума, посвященного тенденциям и достижениям в области больших данных в сфере финансовых услуг (9–10 мая 2019 г.). , BigDataFinance.org). Г-жа Олдридж также является автором книги Высокочастотная торговля: практическое руководство по алгоритмическим стратегиям и торговым системам (Wiley, 2013, второе издание) и соавтором книги Риск в реальном времени: что инвесторы должны знать о финансовых технологиях. Высокочастотный трейдинг и внезапные сбои» (Wiley, 2017).