«Мусор в мусоре на выходе» — это первое, что я выучил, будучи студентом-информатиком. Только в этом контексте легко понять, зачем нам нужна разработка признаков. Проще говоря, чтобы создать отличную модель машинного обучения, нам нужно предоставить ей набор данных, который имеет смысл. В этом блоге я пытаюсь объяснить потребности разработки функций, особенно для числовых функций.
- Предположения. Большинство моделей основано на предположениях. Например: линейная регрессия основана на различных предположениях, например, предсказанная ошибка относится к распределению Гаусса и многим другим. На начальном этапе, если мы обнаружим, что предположения модели не выполняются ни для одного набора данных; необходима разработка функций.
- Генерация более важных функций: в реальном мире вряд ли возможно обучить хорошую модель только с заданными функциями в наборе данных. Есть много случаев, когда я изучал, что использование более чем одной функции для создания новых сложных функций очень помогло модели изучить шаблон.
Хотя приведенных выше двух причин достаточно, чтобы сделать вывод о том, что числовые функции необходимо спроектировать до обучения моделей машинного обучения. Не секрет, что именно разработка признаков является основным компонентом для создания надежных моделей.