Публикации по теме 'feature-engineering'


Коллинеарность признаков
Разумно понимать вещи, связанные с «коллинеарностью» или «мультиколлинеарностью», чтобы преуспеть в области науки о данных. Хотя обе эти концепции объясняют одно и то же с тонкой разницей. (Не волнуйтесь, я объясню разницу наивным языком) Давайте проверим повестку дня для этого сообщения в блоге. Коллинеарность против мультиколлинеарности Как искажается весовой вектор признаков при наличии коллинеарности? Почему мультиколлинеарность может быть опасна для вашей регрессионной модели?..

Быстрое проектирование функций с помощью SQL
Разработка функций — один из наиболее важных аспектов экосистемы машинного обучения. Он попал в центр внимания в последние пару лет и, вероятно, подорвал слой из более ранних жизненных циклов машинного обучения. Функция — это атрибуты/пояснительные переменные из данных, которые полезны для обучения и вывода модели ML, полученные на основе опыта бизнеса/предметной области. (например, средний рейтинг продукта). Разработка функций — это процесс получения набора данных и создания независимых..

Использование функций даты, времени и даты и времени в ML
Руководство по кодированию и инженерным функциям даты и времени Пояснение: на изображении показана дата , а также на человеке надеты наручные часы, которые показывают время, отсюда и изображение! вступление Давайте начнем с того, что проясним некоторые вещи. Прежде всего, дата, время и дата-время не совпадают. Pandas имеет только тип даты и времени, в котором каждая ячейка является объектом pandas Timestamp . В пандах, если вы преобразуете столбец, содержащий только дату, в..

Следующее поколение инструментов разработки функций в Python
HEADJACK — Разработка функций модульности Разработка признаков всегда была важным этапом в конвейере машинного обучения. Основная концепция разработки признаков заключается в создании или извлечении признаков с помощью знаний предметной области, чтобы алгоритмы машинного обучения могли легче извлекать информацию из данных. Ученые данных долго боролись за это, поэтому были созданы самые разные методы. В этой статье подход, который мы представляем, отличается от традиционной..

Почему специалисты по данным используют Feature Stores?
Когда мы смотрим на область науки о данных, мы видим, что многие различные технологии набирают обороты, потому что они делают моделирование данных проще, гибче и доступнее. Хранилище функций — одна из таких технологий, которая становится необходимостью для специалистов по обработке и анализу данных. Эта технология используется в полевых условиях для поддержания потока данных между базой данных и моделью. Поскольку это очень полезно для улучшения способа и производительности..

Спектральное кодирование категориальных признаков
Другой способ встраивания сущностей Около года назад я работал над регрессионной моделью, в которой было более миллиона функций. Излишне говорить, что обучение было очень медленным, и модель сильно переоснащалась. Изучив эту проблему, я понял, что большинство функций были созданы с использованием однократного кодирования категориальных функций, а некоторые из них имели десятки тысяч уникальных значений. Проблема отображения категориальных характеристик в пространство меньшей..

Шаги для подхода к проекту машинного обучения
Начать проект машинного обучения (ML) с нуля непросто, особенно если вы новичок. Исходя из моего собственного опыта, вот статья о различных этапах создания и запуска таких проектов. Идея этого поста принадлежит моему другу Генелве, которого я хотел бы поблагодарить за вопрос, как мы можем начать проект машинного обучения, учитывая набор данных, который у вас есть. Ну вот и был мой ответ 😉: Происхождение и характер данных Знание того, откуда берутся данные, может стать..