«Мусор в мусоре на выходе» — это первое, что я выучил, будучи студентом-информатиком. Только в этом контексте легко понять, зачем нам нужна разработка признаков. Проще говоря, чтобы создать отличную модель машинного обучения, нам нужно предоставить ей набор данных, который имеет смысл. В этом блоге я пытаюсь объяснить потребности разработки функций, особенно для числовых функций.

  1. Предположения. Большинство моделей основано на предположениях. Например: линейная регрессия основана на различных предположениях, например, предсказанная ошибка относится к распределению Гаусса и многим другим. На начальном этапе, если мы обнаружим, что предположения модели не выполняются ни для одного набора данных; необходима разработка функций.
  2. Генерация более важных функций: в реальном мире вряд ли возможно обучить хорошую модель только с заданными функциями в наборе данных. Есть много случаев, когда я изучал, что использование более чем одной функции для создания новых сложных функций очень помогло модели изучить шаблон.

Хотя приведенных выше двух причин достаточно, чтобы сделать вывод о том, что числовые функции необходимо спроектировать до обучения моделей машинного обучения. Не секрет, что именно разработка признаков является основным компонентом для создания надежных моделей.