5 самых распространенных ошибок, которые допускают специалисты по данным при обработке данных

Хорошо управляемые инициативы в области аналитики могут принести пользу вашей организации. Однако если вы совершите одну из этих типичных ошибок, ваша деятельность по обработке данных может очень быстро выйти из-под контроля.

Наука о данных — одна из самых востребованных профессий прямо сейчас, и на то есть веская причина. Каждый день создается около 2,5 квинтиллионов данных! И в список лучших профессий Glassdoor в 2021 году, и в отчет о новых позициях LinkedIn за 2021 год включены профессии, связанные с наукой о данных.

Средняя заработная плата в размере 107 801 долларов США и многообещающее будущее привлекают множество соискателей работы.

Обращение к слону в комнате, получение звания ученого по данным - непростая задача, трудно найти экспертов по данным с нужным набором навыков по данным, реверанс, спрос на профессиональные и новейшие навыки работы с данными.

Ошибки в науке о данных, которые нельзя игнорировать

Статистика, математика, машинное обучение и визуализация данных с помощью R, Java, SQL или Python — все это обязательные и жизненно важные навыки для специалистов по данным. Несколько онлайн-видеоуроков и курсов не покрывают всех потребностей сектора. В результате есть несколько распространенных ошибок, которые совершают начинающие специалисты по данным.

Я добился нескольких важных вех в своей карьере специалиста по данным, но на этом пути я также совершил несколько ошибок. Давайте рассмотрим некоторые грубые ошибки, которые чаще всего совершаются в науке о данных, чтобы мы могли извлечь из них уроки и помочь людям, интересующимся этой областью, добиться успеха.

Давайте начнем с рассмотрения конкретного случая, чтобы увидеть, как ошибки, большие или маленькие, могут привести к масштабным бедствиям для бизнеса.

Пример использования Microsoft Tay Bot

В Twitter Microsoft запустила чат-бота под названием «Tay» в марте 2016 года. Tay должен был говорить как ребенок, но он продержался всего день, когда начал твитить фанатичные и ненавистные вещи в социальных сетях. Тай научилась разговаривать с людьми в зависимости от того, с кем она разговаривала, как с системой искусственного интеллекта.

Microsoft заявила, что расистские комментарии были частично вызваны онлайн-«троллями», которые пытались внедрить технологию в расистские чаты после того, как отключили ее из-за расистских комментариев.

С 2016 года фирма усовершенствовала свои модели искусственного интеллекта и выпустила нового «адвокатского бота», который может оказывать юридическую помощь пользователям через Интернет. По словам пресс-секретаря, проблема Тэя возникла из-за «контентно-нейтрального алгоритма» и таких ключевых вопросов, как «как это может кому-то навредить?» следует изучить перед реализацией таких инициатив в области ИИ.

Необходимо принимать во внимание текущие или потенциальные ошибки, которые могут быть допущены исследователями данных в ближайшее время и которых можно было бы избежать.

1) Отсутствующие аннотации данных и использование поврежденных данных

Сбор и очистка данных занимают 60 процентов усилий специалиста по данным. Это наименее приятная задача, но это необходимый шаг. Все последующие процессы должны выполняться на чистых данных, которые служат основой для задачи машинного обучения.

Аннотирование данных — это процесс надлежащей классификации данных при подготовке к машинному обучению. Для создания моделей машинного обучения специалистам по обработке данных требуется огромный объем точно аннотированных данных, особенно изображений и видеоданных.

Работа с поврежденными данными без аннотаций данных аналогична попытке испечь файлы cookie без соответствующих ингредиентов. Будет ли ваше печенье хрустящим и вкусным? Нет!

Как показано на вышеупомянутой диаграмме, искаженные данные приводят к неточному построению модели. Для создания точной модели данные должны быть свободны от ошибок и выбросов.

2) Анализ без каких-либо планов или вопросов

Прежде чем приступить к анализу, вы должны сначала определиться с направлением, в котором вы хотите двигаться, и с техникой, которую вы будете использовать. Любая наука о данных должна начинаться с четко определенной цели. Специалисты по данным иногда сразу же приступают к моделированию и анализу, не рассматривая сначала проблемы, которые они пытаются решить.

"Почему?" — это вопрос, на который исследователи данных пытаются ответить, а не «что». Отвечая на вопросы «почему», специалисты по данным должны четко понимать свои цели.

Например:

Прежде чем приступить к работе над каким-либо проектом, вы должны сначала определить, является ли проблема, на которую вы пытаетесь ответить, проблемой автоматического (или неструктурированной) машинного обучения или контролируемой (или структурированной). Вы не сможете оценить, работает ли ответ, если не знаете, в чем проблема.

Когда специалисты по данным не знают, что ищут, они часто дают неудовлетворительные результаты. Чтобы достичь своей цели, вы должны задать себе определенные вопросы.

3) Использование одинаковых функций для разных задач

Поскольку это было бы совершенно гипотетически, разные функции не могут применяться к одному и тому же вопросу. У некоторых начинающих специалистов по данным может возникнуть соблазн использовать одни и те же курсы, функции, инструменты и т. д. для каждой задачи.

Каждая проблема уникальна, и каждое решение должно отражать это. Текстовые данные, данные временных рядов и другие типы данных должны обрабатываться по-разному.

Поскольку каждая проблема уникальна, каждое решение должно быть таким же. Существует множество форм данных, каждая из которых требует своей обработки. Natural Language Toolkit (NLTK) и другие библиотеки NLP существуют так же, как и библиотеки машинного обучения. Для обработки фотографий и видео мы используем сверточные нейронные сети и методы анализа временных рядов.

Однородно, библиотека SciKit-Learn имеет множество операций и функций для решения проблем. Для задач компьютерного зрения, связанных с распознаванием изображений, специалисты по данным не могут использовать библиотеки обработки естественного языка (NLP), и наоборот.

4) Не рассматривать модель как компонент жизненного цикла

Это то, что упускают из виду многие специалисты по данным, потому что более половины проектов никогда не доходят до производства и остаются на стадии Proof Of Concept (POC).

Жизненный цикл модели машинного обучения начинается с бизнес-потребности и проходит через базовую последовательность:

Обучение алгоритма машинного обучения
Оценка и тестирование алгоритмов с правильными метриками
Их развертывание с минимальными стандартами производительности (задержки) сопровождается мониторингом модели, обучением и обратной связью.

Каждый уровень имеет свой набор технологических требований. Как специалисту по данным, вас будут часто спрашивать об обучении и исследовании данных, но понимание более широкой картины поможет вам сделать правильные выводы на раннем этапе.

Например, если вы знаете, что инфраструктура вашего клиента имеет ограниченные ресурсы, вы можете проектировать свою модель с учетом этого ограничения с самого начала: например, более простой дизайн может позволить вам быстрее делать выводы.

5) Не обращать внимания на коммуникативные навыки.

Это, пожалуй, самая распространенная оплошность специалистов по данным. Решение проблемы науки о данных, а затем сообщение ее нетехнической аудитории — это другой навык.

Представление ваших результатов заинтересованным сторонам является важным элементом работы специалиста по данным в компании, и возможность перейти от технического дискурса к демонстрации коммерческой ценности, выраженной человеческими словами, невероятно полезна.

В какой-то момент вы почти наверняка продемонстрируете свою работу коммерческому спонсору. Эти люди не являются техническими и никогда не будут частью вашей команды. Они обращают внимание только на то, что для них важно. Итак, вот мой совет: будьте прямолинейны, просты и по делу.

Заключить

Каждая новая проблема — это возможность учиться и расти как специалист по данным. Когда вы начинаете свою профессию, не пугайтесь этих промахов. Они, несомненно, научат вас тому, как решать различные задачи машинного обучения на практике.

Ошибки случаются и служат средством продвижения, важно учиться на них и никогда не повторять одну и ту же ошибку дважды!