Лучший способ выбрать самые важные функции и отказаться от остальных
У нас может быть куча данных. Но все ли они ценны и актуальны? Какие столбцы и характеристики, скорее всего, повлияют на результат?
Здесь я объясню это с помощью примера. К концу этой статьи вы сможете определить важные функции, которые следует сохранить, и отказаться от остальных.
Некоторые из наших данных часто не имеют отношения к нашему анализу. Например:
- Влияет ли название стартапа на его успех в сборе средств?
- Есть ли связь между предпочитаемым человеком цветом кожи и интеллектом?
Выбор наиболее релевантных характеристик также является важной задачей при обработке данных. Зачем нам тратить драгоценное время и вычислительные ресурсы на рассмотрение ненужных функций/столбцов в нашем анализе? Хуже того, не исказят ли наш анализ нерелевантные атрибуты? ОПРЕДЕЛЕННО ДА.
Например, у нас может быть 20 или более атрибутов, характеризующих наших потребителей. Эти характеристики включают в себя возраст, диапазон заработной платы, местонахождение, пол, наличие детей, уровень расходов, недавние покупки, наивысший уровень образования, наличие у них дома или множество других. Однако не все из них, вероятно, будут иметь отношение к нашему исследованию или прогностической модели. Хотя вполне возможно, что все эти факторы будут иметь влияние, анализ может быть слишком сложным, чтобы иметь смысл.
Выбор признаков — это метод упрощения анализа путем подчеркивания значимости. Но как мы можем сказать, важна ли определенная черта? Вот когда в игру вступают знания и опыт предметной области.
Например, аналитик данных или команда должны быть знакомы с розничной торговлей (в нашем примере выше). В результате команда сможет тщательно выбрать элементы, которые окажут наибольшее влияние на модель прогнозирования или анализ.
Вот несколько советов, как сохранить важные функции:
- Начните с правильных вопросов, прежде чем сосредоточиться на применении самого сложного алгоритма к данным.
- Чтобы выбрать правильные (и наиболее актуальные) вопросы, вы или кто-то из вашей команды должен хорошо разбираться в проблеме.
- Необходимо иметь знание предметной области, чтобы знать, какие функции взаимозависимы друг с другом.
- Требуется для анализа бизнес-данных. Например, чем больше клиентов, тем больше продаж. Люди из групп с более высоким доходом также могут иметь более высокий уровень расходов.
- Профессионалы часто экспериментируют с различными комбинациями, чтобы определить, какая из них дает наилучшие результаты (или найти что-то, что имеет наибольший смысл).
Ключевой вывод
Выбор лучших характеристик также может занять некоторое время, особенно если вы работаете с большим набором данных (с сотнями или даже тысячами столбцов). Это может занять некоторое время, чтобы определить важные функции при работе с огромным набором данных, но с практикой вы справитесь с этим.
В целом предметные знания могут быть более ценными, чем навыки анализа данных.
Спасибо за чтение! Буду признателен, если вы подпишитесь на меня или поделитесь этой статьей с кем-нибудь. С наилучшими пожеланиями.