Введение

Что является ключом к победе в соревнованиях по науке о данных? Как вы используете этот опыт, чтобы проникнуть в индустрию науки о данных? Мы регулярно сталкиваемся с этими вопросами от начинающих специалистов по данным, которые задаются вопросом, как сделать себе имя в науке о данных.

Кто лучше ответит на эти вопросы и предоставит всестороннее представление о мире науки о данных, чем мастер Kaggle и эксперт хакатона Analytics Vidhya? Дамы и господа, я рад представить вам Сонни Ласкара!

Сонни является аспирантом MBA в IIM Indore, месте, которое он считает началом своего пути в науке о данных. Так что для любого из вас, кто задается вопросом, можно ли сделать карьерный переход в науку о данных из области, не связанной с наукой о данных, — эта статья для вас.

Я нашел Сонни очень доступным человеком, и его ответы, как вы скоро увидите, очень интересны, содержательны и богаты опытом. Несмотря на то, что он занимает руководящую должность в отрасли, Сонни любит участвовать в соревнованиях и хакатонах по науке о данных и регулярно поднимается в высшие эшелоны списков лидеров соревнований.

Сонни также имеет большой опыт в области обработки данных в этой области. Как вы понимаете, мы МНОГОЕ можем у него поучиться. У меня была возможность покопаться в его мозгу по различным темам науки о данных и представить вам эту статью.

Во время нашего разговора мы затронули множество тем, связанных с наукой о данных:

  • История Сонни и его первая роль в науке о данных
  • Отличие соревнований по науке о данных от отраслевых проектов
  • Структура и подход Сонни к соревнованиям по науке о данных
  • Его совет начинающим специалистам по данным

И многое другое! Из знаний и мыслительного процесса Сонни можно многому научиться. Наслаждайтесь обсуждением!

История и первая роль Сонни Ласкара в науке о данных

Пранав Дар: В настоящее время вы являетесь заместителем директора по автоматизации и аналитике в Microland, 4 раза финишировали в тройке лучших на хакатонах AV и заняли второе место в конкурсе Kaggle. Это была настоящая поездка!

Как и где началось ваше путешествие в науку о данных?

Сонни Ласкар: Мое путешествие в науку о данных началось, когда я получал степень магистра делового администрирования в IIM Indore. Аналитика была любимой областью для каждого претендента. Одна из первых тем обсуждения была основана на том, как Target выяснил, что девочка-подросток беременна раньше, чем ее отец. Это сделало меня очень любопытным, и я начал глубоко погружаться в мир науки о данных.

Я уже много работал с данными, но в основном занимался инженерными проблемами и бизнес-аналитикой. В то время в организациях Индии не было популярно серьезного машинного обучения.

«В начале 2014 года я провел два месяца в Техасском университете в Остине и был удивлен тем, насколько хорошо они работают с данными. Мой визит в штаб-квартиру Dell в Остине и то, как они использовали данные из социальных сетей для улучшения позиционирования своего продукта, были потрясающими. К концу этого я был полностью убежден, что мне нужно поработать над этим».

ПД: Ваша профессиональная карьера началась не с науки о данных. Первые 6 лет или около того были потрачены на хранение данных и инфраструктуру.

Итак, с какими проблемами вы столкнулись, когда начали заниматься наукой о данных? Как вы их преодолели?

SL: Я начал свою карьеру в 2007 году в сфере ИТ-инфраструктуры. В первые шесть лет я в основном работал над созданием крупномасштабных приложений для хранения данных (каждый обрабатывал ~10 ТБ данных). Основное внимание уделялось ETL и BI. Информационные панели и витрины данных были основным результатом всех этих усилий. Это было то, что мы назвали «Описательная аналитика».

К 2014–2015 годам «Прогнозная аналитика» уже привлекала к себе большое внимание и была принята в США. Именно тогда многие организации в Индии начали уделять пристальное внимание «прогнозной аналитике». Мы уже обрабатывали терабайты данных и очень хорошо разбирались в инженерной стороне дела.

Я смог очень хорошо понять основы науки о данных, поскольку мои концепции математики и статистики сильны, и у меня было достаточно опыта программирования.

Я начал с R, так как это был язык программирования, популярный в академических кругах, и я улучшил свои знания, практикуясь в написании кода и копируя другую работу.

Во время обучения на MBA я получил представление о многих подходах к статистике и науке о данных с высоты птичьего полета. Поскольку во время MBA основное внимание уделялось бизнесу, это позволило мне не столько овладеть техническими навыками, сколько потребности промышленности. После получения степени MBA я начал тратить примерно 4–5 часов каждый день на написание кода и надстройку над ним.

В прошлом я уже написал достаточно кода на Bash, Javascript, PHP и Perl. Так что кривая обучения была для меня не очень крутой. Я также вложил средства в получение доступа к облачным подпискам, чтобы иметь возможность работать с большими объемами данных. Я думаю, что стоит вложить эти деньги, если вы считаете, что они будут полезны в долгосрочной перспективе.

Терпение, настойчивость и практика были моим правилом во всем в жизни, и я применил его и здесь.

Отраслевой опыт против соревнований по науке о данных

ПД: Мы часто слышим от менеджеров по найму, как начинающие специалисты по данным участвуют в хакатонах и конкурсах и изо всех сил пытаются преодолеть разрыв во время своего перехода в отрасль.

Вы были с обеих сторон — у вас богатый опыт в науке о данных и вы преуспели в хакатонах. Каков ваш опыт участия в дебатах между отраслью и хакатоном?

SL: Наука о данных привлекает большое внимание рабочей силы на рынке. На самом деле очень легко пройти обучение, чтобы понять основные концепции (благодаря МООК). Это приводит к избыточному предложению, и рекрутерам нужны какие-то способы фильтрации.

Один из лучших способов добиться этого — завоевать доверие, участвуя в конкурсах по науке о данных.

Как и у большинства вещей в жизни, у соревнований есть свои плюсы и минусы. Перед публикацией конкурса проводится большая подготовительная работа. Иногда эта работа чрезвычайно сложна, занимает много времени и требует понимания в нескольких областях.

Точно так же соревнование заканчивается подсчетом очков в таблице лидеров без какого-либо взгляда на то, что было сделано с решениями победителей. Это серые зоны для многих новичков в науке о данных, которые создают много проблем, когда они присоединяются к отрасли.

За последний год я провел не менее 100 личных интервью и очень хорошо вижу эту борьбу. От специалистов по данным не ожидается, что они будут просто разрабатывать модель машинного обучения, чтобы что-то предсказывать. Во многих организациях обсуждения в конференц-залах заканчиваются задачей для Data Scientist, такой как «Давайте построим модель для предсказания X».

Хороший Data Scientist может в конечном итоге прийти к выводу, что многие из таких вариантов использования X вообще не должны решаться с помощью машинного обучения! Ожидается, что команда Data Science не будет очень большой в реальном мире. Они могут быть вовлечены во многие задачи, которые либо не представляют ценности, либо могут быть легко решены без использования машинного обучения.

Если они считают, что эту проблему можно решить с помощью машинного обучения, то должна быть проведена серия дискуссий, чтобы понять, какие данные помогут им решить эту проблему.

«В отличие от конкурентов, никто не дает вам два CSV-файла с названиями «обучение и тестирование» и хорошо написанную оценочную метрику. Почти 80 % усилий уходит на определение проблемы, получение и обработку данных. Оставшиеся 20 % усилий уходят на чистое моделирование и развертывание».

Воздействие на соревнования помогает решить несколько аспектов этой проблемы:

  1. Обработка данных и разработка функций
  2. Создание различных типов моделей и получение лучших результатов

Это очень важная деятельность, и поэтому рекрутеры используют «конкурсы» как хороший фильтр, чтобы сосредоточиться на меньшем наборе кандидатов.

Подводя итог, ниже приведены ключевые проблемы, с которыми сталкиваются люди, ориентированные на конкуренцию, когда приходят в отрасль:

  • Формирование деловой хватки для понимания того, как формулировка проблемы помогает достижению бизнес-целей и какие данные способствуют этому.
  • Иметь позицию решать проблемы
  • Понимание программной инженерии стороны производственного развертывания
  • Рассказывание историй: возможность сообщать результаты нетехническим специалистам.

Хакатоны и конкурсы по науке о данных

ПД: С тех пор, как наука о данных за последние 5 лет стала мейнстримом, на разных платформах продолжают одновременно проводиться несколько соревнований. Как вы выбираете, в каком хакатоне или конкурсе по науке о данных вы будете участвовать?

SL: Я увлекся соревнованиями по науке о данных еще в 2016 году. Раньше я участвовал во всех соревнованиях, в которых мог! В последнее время мой личный интерес как бы застопорился, так как постепенное обучение уменьшилось. Сейчас участвую только если есть время и очень интересная проблема.

Я также стараюсь участвовать в оффлайн-хакатонах вместе с моим другом Kaggle Grandmaster Судалай Раджкумар (SRK). Я обычно участвую на основе трех факторов:

  • Новизна проблемы: если формулировка проблемы является чем-то новым для меня из существующей или новой области, в которой у меня может не хватать опыта, я хотел бы поиграть с данными, поскольку они помогают мне построить некоторое представление об этой проблеме/области
  • Размер данных. Мне нравятся задачи, в которых объем данных чрезвычайно велик. Мне нравится, когда я запускаю модели на машинах с 500 ГБ ОЗУ и 64-ядерными процессорами. Это очень весело!
  • Множественная схема подходов:если есть несколько методов, с которыми я могу поэкспериментировать. На самом деле, в нашем первом соревновании на Kaggle нам нужно было выполнить как текстовую аналитику, так и аналитику изображений, а также найти четкий способ их объединения.

PD: Как новичку следует участвовать в этих хакатонах по науке о данных? В какой вид соревнований им следует в первую очередь окунуться?

SL: Для новичков важно знать основные строительные блоки.

"Я бы настоятельно рекомендовал им не участвовать ни в каких соревнованиях, где набор данных велик, а постановка задачи сложна".

Они должны начать с относительно простых соревнований по науке о данных. Ниже показано, что начинающим специалистам по данным следует делать в первые несколько недель:

  • Хорошо изучите данные. Не приступайте непосредственно к запуску xgb.train.
  • Прочитайте о том, какие преобразования эффективны для вашей проблемы и модели:
  • Разработка функций – это ключ, и ваше раннее обучение разработке функций будет происходить из кода других людей. Итак, выработайте привычку читать чужой код построчно и копируйте его. Задайте себе вопросы, например, почему автор сделал это и как это помогает?
  • Ядра Kaggle — отличное место для чтения
  • В Analytics Vidhya участники загружают свой код, который должны прочитать новички
  • Ознакомьтесь с процессом построения моделей с использованием различных алгоритмов.

PD: Как начинающим специалистам по данным следует подходить к соревнованиям?

SL:Участвуя во многих конкурсах, мы понимаем, что существует общий набор шагов, которым мы всегда следуем. Мы должны попытаться создать из этого шаблон, который мы можем легко модифицировать на каждом соревновании. Это делает жизнь проще.

Я следую следующему процессу:

  • Создайте наивную базовую модель, используя все функции и базовую разработку функций.
  • Записывайте каждое изменение и оценивайте его в таблице Excel, чтобы отслеживать прогресс.
  • Выполните настройку гиперпараметров вручную (не тратя слишком много времени), чтобы получить что-то приличное.
  • Вернуться к пониманию данных и полностью переработать функции
  • Изучите данные, постройте визуальные графики, чтобы увидеть закономерности и т. д.
  • Читайте обсуждения, ядра и т.д.
  • Повторите все эти шаги

Отраслевые науки о данных

PD: Каковы 3 критических аспекта проекта по науке о данных, которые, по вашему мнению, часто упускают из виду новички?

SL:Интересный вопрос. Вот на что я бы рекомендовал обратить внимание:

  • Запуск моделей в производство
  • Понимание важности SQL
  • Учимся писать эффективный код для больших данных

ПД: AutoML становится все более популярным в отрасли. Какие еще тенденции в науке о данных мы можем ожидать в ближайшие 2–3 года?

SL:AutoML в конечном итоге автоматизирует большую часть работы по построению и развертыванию модели. Это будет включать работу с разработкой функций (в значительной степени).

«Знание предметной области, логическое мышление и умение решать проблемы — это все, в чем должен преуспеть специалист по данным».

Другие ключевые тенденции, которые я вижу:

  • Применение графиков в машинном обучении. Большинство людей не используют Graph. Это пародия! Графики — такие удивительные структуры для решения многих сложных задач.
  • Расширенная аналитика. Расширенная аналитика автоматизирует анализ данных, используя машинное обучение и естественный язык для автоматизации подготовки данных и обеспечения совместного использования данных.
  • Автономные системы. Автономные системы похожи на беспилотные автомобили, которые могут принимать решения самостоятельно. За этим стоит обучение с подкреплением. Один из продуктов, которые мы создаем в Microland, предназначен для «автономных ИТ», которые будут воспроизводить действия человека при возникновении проблемы и обучаться этому поведению, чтобы воспроизвести его в режиме реального времени.

Быстрые вопросы: Взгляд Сонни на различные аспекты науки о данных

ПД: Расскажите нам о трех вещах, которым вы научились, работая в области науки о данных.

SL: Их слишком много, чтобы перечислять! Но вот мои лучшие 3 выбора:

  • Знание предметной области является ключевым
  • Быть «Мастером на все руки» очень помогает
  • Всегда мыслите нестандартно

PD: Какой ваш любимый алгоритм машинного обучения/глубокого обучения и почему?

SL: Я использую Xgboost и Lightgbm для большинства своих задач. Они работают почти всегда. Для глубокого обучения Keras с TensorFlow мне кажется идеальным.

PD: Кого из специалистов по науке о данных вы бы выбрали для участия в престижном конкурсе по науке о данных?

SL: Судалай Раджкумар (SRK) в любой день!

ПД: Что бы вы посоветовали людям, пытающимся получить свою первую должность в науке о данных?

SL: Вот несколько советов из моего опыта:

  • Не пытайтесь учить два языка одновременно. Освойте любой, который вам нравится. Игнорируйте все новости, которые вы слышите вроде «Язык X лучше, чем язык Y» и т. д.
  • Создайте достойный профиль на Github со всеми типами проблем, которые вы пытались решить.
  • Возьмем открытую проблему, по которой вы можете получить данные и построить вокруг них какое-нибудь приложение по науке о данных.
  • Наконец, участвуйте в соревнованиях и доберитесь до вершины!

Конечные примечания

Мне очень понравилось общаться с Сонни Ласкаром во время этого интервью. Его знания, его мыслительный процесс и то, как он формулирует и структурирует свои мысли, — это то, чему мы все можем научиться.

Что вы узнали из этого интервью? Есть ли другие лидеры в области науки о данных, с которыми вы бы хотели, чтобы мы побеседовали? Дайте мне знать в разделе комментариев ниже!

Первоначально опубликовано на https://www.analyticsvidhya.com 30 мая 2019 г.