Лучший способ выбрать самые важные функции и отказаться от остальных

У нас может быть куча данных. Но все ли они ценны и актуальны? Какие столбцы и характеристики, скорее всего, повлияют на результат?

Здесь я объясню это с помощью примера. К концу этой статьи вы сможете определить важные функции, которые следует сохранить, и отказаться от остальных.

Некоторые из наших данных часто не имеют отношения к нашему анализу. Например:

  • Влияет ли название стартапа на его успех в сборе средств?
  • Есть ли связь между предпочитаемым человеком цветом кожи и интеллектом?

Выбор наиболее релевантных характеристик также является важной задачей при обработке данных. Зачем нам тратить драгоценное время и вычислительные ресурсы на рассмотрение ненужных функций/столбцов в нашем анализе? Хуже того, не исказят ли наш анализ нерелевантные атрибуты? ОПРЕДЕЛЕННО ДА.

Например, у нас может быть 20 или более атрибутов, характеризующих наших потребителей. Эти характеристики включают в себя возраст, диапазон заработной платы, местонахождение, пол, наличие детей, уровень расходов, недавние покупки, наивысший уровень образования, наличие у них дома или множество других. Однако не все из них, вероятно, будут иметь отношение к нашему исследованию или прогностической модели. Хотя вполне возможно, что все эти факторы будут иметь влияние, анализ может быть слишком сложным, чтобы иметь смысл.

Выбор признаков — это метод упрощения анализа путем подчеркивания значимости. Но как мы можем сказать, важна ли определенная черта? Вот когда в игру вступают знания и опыт предметной области.

Например, аналитик данных или команда должны быть знакомы с розничной торговлей (в нашем примере выше). В результате команда сможет тщательно выбрать элементы, которые окажут наибольшее влияние на модель прогнозирования или анализ.

Вот несколько советов, как сохранить важные функции:

  • Начните с правильных вопросов, прежде чем сосредоточиться на применении самого сложного алгоритма к данным.
  • Чтобы выбрать правильные (и наиболее актуальные) вопросы, вы или кто-то из вашей команды должен хорошо разбираться в проблеме.
  • Необходимо иметь знание предметной области, чтобы знать, какие функции взаимозависимы друг с другом.
  • Требуется для анализа бизнес-данных. Например, чем больше клиентов, тем больше продаж. Люди из групп с более высоким доходом также могут иметь более высокий уровень расходов.
  • Профессионалы часто экспериментируют с различными комбинациями, чтобы определить, какая из них дает наилучшие результаты (или найти что-то, что имеет наибольший смысл).


Ключевой вывод

Выбор лучших характеристик также может занять некоторое время, особенно если вы работаете с большим набором данных (с сотнями или даже тысячами столбцов). Это может занять некоторое время, чтобы определить важные функции при работе с огромным набором данных, но с практикой вы справитесь с этим.

В целом предметные знания могут быть более ценными, чем навыки анализа данных.

Спасибо за чтение! Буду признателен, если вы подпишитесь на меня или поделитесь этой статьей с кем-нибудь. С наилучшими пожеланиями.

Ваша поддержка была бы потрясающей❤️