Начать проект машинного обучения (ML) с нуля непросто, особенно если вы новичок. Исходя из моего собственного опыта, вот статья о различных этапах создания и запуска таких проектов.

Идея этого поста принадлежит моему другу Генелве, которого я хотел бы поблагодарить за вопрос, как мы можем начать проект машинного обучения, учитывая набор данных, который у вас есть. Ну вот и был мой ответ 😉:

Происхождение и характер данных

Знание того, откуда берутся данные, может стать источником ценной информации для вашей модели машинного обучения, поскольку она может дать информацию о том, как данные были разделены. Как правило, необработанные данные разделяются на 3 набора: набор для проверки и тестирования, учитывая, что набор для проверки получен из набора для обучения. Разделение данных обучения и тестирования обычно не является случайным, и большую часть времени следует одним и тем же распределениям (даже если это не так, идея состоит в том, чтобы определить, за каким распределением следует и поезд, и тестовый набор), эта информация может помочь. вы думаете о том, каким шаблонам следуют два набора точек данных. Более того, характер данных может помочь вам выбрать подходящую модель для обучения (пример данных временных рядов хорошо подходит для повторяющихся нейронных сетей 😊)

Исследовательский анализ данных (EDA) и предварительная обработка данных

В большинстве случаев физические явления генерируют данные, которые подчиняются нормальному распределению. Уловка заключается в том, что большая часть этих данных собирается людьми или машинами, которые могут выявить источники ошибок, называемые выбросами. Выбросы - это набор значений, которые не подчиняются такому же распределению или правилам, как обычные значения. EDA может помочь вам легко идентифицировать эти точки данных, поскольку они могут плохо повлиять на вашу модель машинного обучения. Но важно отметить, что выбросы также могут дать некоторую дополнительную информацию для вашей модели (например, резкое падение температуры области может быть результатом изменения сезонности, а не обязательно неправильным значением). EDA также может помочь вам определить асимметрию данных, которые обычно необходимо нормализовать или стандартизировать, что обычно выполняется на этапе предварительной обработки данных. Работа с большими значениями в ML может привести к переобучению вашей модели. Причина в том, что более важные переменные имеют гораздо больший приоритет, чем более низкие. Чтобы преодолеть эту проблему, важно вернуть эти значения к диапазону, подходящему для обучения (обычно от 0 до 1).

Функциональная инженерия

Мне нравится эта часть 😍. Для меня разработка функций - это искусство, искусство создания новых и явных функций из уже существующих. К сожалению, именно здесь сдаётся большинство специалистов по анализу данных! потому что это отнимает много времени и требует большого количества тестов на рефлексию и интуицию (специалист по анализу данных должен набраться терпения… обычно я ем печенье и пью молоко, когда вхожу в стадию критического мышления 😂😂). Однако это того стоит !! так как это повышает производительность вашей модели.

Стратегия выбора и проверки модели

Теперь вы можете выбрать свою модель, самое время это сделать. Обычно большинство из нас решает выбрать модель машинного обучения перед любым анализом, думая, что лучшая модель всегда побеждает… Нет! это неправильно (но, как я сказал в первом пункте, характер данных может дать вам представление о том, какую модель выбрать). Говоря о стратегии проверки, ваша модель должна хорошо согласовываться с невидимыми данными, это полезно на этапе развертывания вашего проекта. В зависимости от последнего, я могу упомянуть перекрестную проверку K-Fold и проверку Stratify fold. Эти подходы в большинстве случаев позволяют повысить эффективность моделей машинного обучения.

Ага! Теперь, когда у вас есть этот общий обзор концепции, с помощью этих шагов можно легко разработать базовый проект.

Точно так же, как мой профессор говорит, ML - это не волшебство, это просто использование набора чисел, которые вам нужно мучить, чтобы получить информацию и дать ценные ответы на разные вопросы.

Увидимся в следующем посте 😁😁