Публикации по теме 'feature-engineering'
Коллинеарность признаков
Разумно понимать вещи, связанные с «коллинеарностью» или «мультиколлинеарностью», чтобы преуспеть в области науки о данных. Хотя обе эти концепции объясняют одно и то же с тонкой разницей. (Не волнуйтесь, я объясню разницу наивным языком)
Давайте проверим повестку дня для этого сообщения в блоге.
Коллинеарность против мультиколлинеарности Как искажается весовой вектор признаков при наличии коллинеарности? Почему мультиколлинеарность может быть опасна для вашей регрессионной модели?..
Быстрое проектирование функций с помощью SQL
Разработка функций — один из наиболее важных аспектов экосистемы машинного обучения. Он попал в центр внимания в последние пару лет и, вероятно, подорвал слой из более ранних жизненных циклов машинного обучения.
Функция — это атрибуты/пояснительные переменные из данных, которые полезны для обучения и вывода модели ML, полученные на основе опыта бизнеса/предметной области. (например, средний рейтинг продукта). Разработка функций — это процесс получения набора данных и создания независимых..
Использование функций даты, времени и даты и времени в ML
Руководство по кодированию и инженерным функциям даты и времени
Пояснение: на изображении показана дата , а также на человеке надеты наручные часы, которые показывают время, отсюда и изображение!
вступление
Давайте начнем с того, что проясним некоторые вещи. Прежде всего, дата, время и дата-время не совпадают. Pandas имеет только тип даты и времени, в котором каждая ячейка является объектом pandas Timestamp . В пандах, если вы преобразуете столбец, содержащий только дату, в..
Следующее поколение инструментов разработки функций в Python
HEADJACK — Разработка функций модульности
Разработка признаков всегда была важным этапом в конвейере машинного обучения. Основная концепция разработки признаков заключается в создании или извлечении признаков с помощью знаний предметной области, чтобы алгоритмы машинного обучения могли легче извлекать информацию из данных. Ученые данных долго боролись за это, поэтому были созданы самые разные методы.
В этой статье подход, который мы представляем, отличается от традиционной..
Почему специалисты по данным используют Feature Stores?
Когда мы смотрим на область науки о данных, мы видим, что многие различные технологии набирают обороты, потому что они делают моделирование данных проще, гибче и доступнее. Хранилище функций — одна из таких технологий, которая становится необходимостью для специалистов по обработке и анализу данных. Эта технология используется в полевых условиях для поддержания потока данных между базой данных и моделью. Поскольку это очень полезно для улучшения способа и производительности..
Спектральное кодирование категориальных признаков
Другой способ встраивания сущностей
Около года назад я работал над регрессионной моделью, в которой было более миллиона функций. Излишне говорить, что обучение было очень медленным, и модель сильно переоснащалась. Изучив эту проблему, я понял, что большинство функций были созданы с использованием однократного кодирования категориальных функций, а некоторые из них имели десятки тысяч уникальных значений.
Проблема отображения категориальных характеристик в пространство меньшей..
Шаги для подхода к проекту машинного обучения
Начать проект машинного обучения (ML) с нуля непросто, особенно если вы новичок. Исходя из моего собственного опыта, вот статья о различных этапах создания и запуска таких проектов.
Идея этого поста принадлежит моему другу Генелве, которого я хотел бы поблагодарить за вопрос, как мы можем начать проект машинного обучения, учитывая набор данных, который у вас есть. Ну вот и был мой ответ 😉:
Происхождение и характер данных
Знание того, откуда берутся данные, может стать..