Всем, кто хочет начать свое путешествие в области концепций искусственного интеллекта, важно понимать, что реализации машинного обучения или глубокого обучения без математического понимания беспочвенны. Первоначально нам может не понадобиться это математическое понимание, чтобы знать, как реализовать классификацию образцов или задачи регрессии, но если вы хотите по-настоящему понять цель того, что вы делаете, взгляните на следующее и не тратьте время впустую, как я. .

Во-первых, почему мы используем алгоритмы обучения с учителем, такие как классификация, для прогнозирования меток классов, а не просто генерируем метки с помощью условных операторов? Причина в том, что машинное обучение способно распознавать несколько шаблонов и взаимосвязей в данных, предлагая большую гибкость и масштабируемость при работе с большими или сложными наборами данных. Следовательно, мы используем классификацию ML, а не ручную маркировку.

НАЧНЕМ:

Я работаю с концепциями машинного обучения почти два года. Я заметил, что ни выбор правильного механизма для вашей модели, ни выбор наиболее важных показателей проверки не являются ключевыми аспектами проектов. Эти вещи становятся ясными, только если у вас есть четкое понимание постановки задачи. Я скажу почему: все знают, что обучение с учителем, такое как классификация или регрессия, нужно делать на размеченных данных, но никто изначально не объясняет, почему. Это довольно просто; это все равно, что учить детей понимать, что правильно, а что неправильно. Точно так же метки включаются в данные, чтобы помочь модели понять, что происходит. Например, при обсуждении набора данных, описывающего качество вина (https://www.kaggle.com/datasets/fedesoriano/air-quality-data-set), мы можем создать три метки, такие как хорошее вино, плохое вино, и удовлетворительное вино на основе условных параметров по множеству признаков.

Начните путешествие с компонента ПОЧЕМУ?

Я сам сделал много серьезных ошибок, непосредственно перейдя к выбору модели, а затем выискивая домены. Но благодаря этому я понял, что реальная реализация моделей, ориентированных на машинное обучение, должна основываться на формулировках задач, которые мы определили. Четкое понимание нашей области имеет решающее значение перед началом реализации. Почему вы выбираете именно этот домен и какую проблему хотите решить?

Как придумать постановку задачи?

Я на собственном горьком опыте узнал, что постановка задачи может быть определена только путем анализа данных вашего конкретного домена. Что мы можем анализировать? Нам нужно начать с понимания поведения и типов распределений, которым следуют наши данные. Именно здесь ваши математические навыки могут помочь вам определить характер данных, например, определить долгосрочные зависимости, такие как циклы или тренды, или определить линейные отношения. Для этой части нам также могут понадобиться наши навыки визуализации. Кроме того, нам может потребоваться выполнить процедуры масштабирования на основе результатов анализа. Все эти анализы могут помочь нам решить два важных аспекта: постановку задачи и тип модели машинного обучения, необходимой для решения этой проблемы. Допустим, выбранные данные имеют аномалии, такие как отрицательная корреляция в одном случае. В этом случае нам нужно решить, влияет ли это на характер данных или может быть решающим фактором в нашей постановке задачи. Можно с уверенностью сказать, что генерация меток классов, являющаяся основой любого контролируемого обучения, полностью зависит от характеристик данных. Следовательно, предварительный анализ данных может помочь в машинном обучении. Более того, в большинстве сценариев для данных нет заданных меток классов, поэтому нам нужно генерировать метки классов на основе определенной постановки задачи. Чтобы сгенерировать метки классов, нам нужно понять такие факторы, как распределение, за которым следуют данные, и тип отношений между функциями.

Четкая схема рабочего процесса для детального понимания любых моделей машинного обучения

Сбор данных и анализ данных. После выбора определенного домена для проекта или задач машинного обучения нам необходимо импортировать набор данных из источника в форматах csv или excel (в основном) либо с помощью API, либо из веб-источников, либо из подключений к базе данных. . После того, как мы соберем выборку данных, нам нужно начать анализ данных для различных последствий, таких как тенденция, сезонность, циклы для данных, связанных с временными рядами, в случае обычных данных мы можем начать анализ, наблюдая за распределением, за которым следуют данные, используя гистограмму. Первоначально гистограммы могут помочь нам получить грубую оценку того, что наши данные распределены таким образом, как асимметричное распределение, нормальное распределение, экспоненциальное распределение и т. д. Визуальное представление и анализ также могут помочь нам в определении контуров или аномалий и взаимосвязей между атрибутами данных, такими как корреляции. .

Определение постановки проблемы и выбор функций.Определение постановки проблемы требует четкого понимания результатов анализа, а также знаний в предметной области, которые могут помочь нам решить, какую конкретную проблему решить или поддержать конкретный результат анализа. Выбор признаков — это процесс выбора или включения определенных атрибутов данных в качестве признаков и определения метки класса (для полуразмеченных или неразмеченных данных) на основе поведенческого понимания данных посредством анализа.

Разработка функций: это один из наиболее часто повторяющихся аспектов подготовки любой модели ML, его можно рассматривать как неотъемлемую часть методов предварительной обработки данных, но в этом сценарии я изменил его как еще один шаг рабочий процесс для определения его значимости. Инжиниринг признаков помогает нам понять выводы из образцов данных, создавая новый признак из существующего образца или преобразовывая существующие признаки, например преобразовывая категориальные признаки данных в числовые признаки, чтобы их можно было легко обучить с помощью модели машинного обучения.

Предварительная обработка данных. Это этап рабочего процесса машинного обучения, на котором мы обрабатываем отсутствующие значения данных, которые могут повлиять на производительность модели, либо полностью удаляя их с помощью синтаксиса dropna() или заполнив эти пропущенные значения либо значением 0, либо центральными показателями тенденции, такими как среднее, с помощью fillna(), или мы можем даже использовать такие методы, как заполнение или механизмы интерполяции. Процедуры масштабирования, такие как Min-Max Scaling или Standard-Scaling, также считаются частью предварительной обработки данных, хотя они используются для преобразования необработанных данных в подходящий формат. для моделирования они стремятся обеспечить, чтобы признаки были сопоставимы и имели одинаковые диапазоны, поэтому они считаются частью предварительной обработки данных.

Какой метод масштабирования следует использовать?

Процедуры масштабирования, такие как логарифмическое масштабирование, масштабирование минимум-максимум и стандартное масштабирование, демонстрируют различные механизмы и цели масштабирования значений, чтобы решить, какая процедура лучше всего подходит для данных. Нам необходимо четкое понимание целевых диапазонов функций, распределения данных, а также таких факторов, как наличие планировщиков, знание предметной области и требования к модели ML.

Разделение данных.Это также неотъемлемая часть предварительной обработки данных, когда данные разбиваются на обучающие и тестовые наборы в соотношении 70:30 или 80:20, в некоторых случаях мы также разбиваем данные на обучающие, тестовые и проверочные наборы, в таких случаях соотношения могут быть 70:15:15 или 60:20:20 и т. д.

Выбор и обучение модели. Эта часть задачи полностью зависит от формулировки цели, и обучающие образцы передаются модели машинного обучения для выполнения ожидаемых задач. Модели ML лежат в основе математических вычислений, поэтому человек с математическим пониманием математических методов может легко реализовать модели и повысить производительность. например, простая модель линейной регрессии помогает нам понять взаимосвязь между одной зависимой переменной и одной или несколькими независимыми переменными, используя следующую целевую функцию:

y = β₀ + β₁x + ε, где y — зависимая переменная (также называемая переменной отклика или целевой переменной),

  • x - независимая переменная (также называемая предикторной переменной или функцией),
  • β₀ - точка пересечения с осью y (значение y, когда x равно нулю),
  • β₁ - наклон (изменение y, соответствующее изменению x на одну единицу),
  • ε - член ошибки (остатки), представляющий отклонение фактических значений от прогнозируемых значений.

Следовательно, простое понимание математических процедур может помочь нам понять, почему одна модель может работать лучше, когда другие модели могут дать сбой.

Прогнозирование и обратное преобразование меток.Большинство моделей машинного обучения, используемых для классификации или регрессии, генерируют числовые результаты, которые не носят описательного характера. Для задач классификации мы делаем их описательными путем обратного преобразования числового результата прогноза. который преобразует их в категориальные метки.

Метрики проверки. Это простые метрики, используемые в машинном обучении для определения того, насколько хорошо модель способна прогнозировать по сравнению с тестовыми метками. Точность является широко используемой метрикой для оценки эффективности моделей классификации. Он измеряет долю правильно классифицированных экземпляров от общего числа экземпляров в наборе данных. Точность выражается в процентах.

Формула для расчета точности:

Точность = (Количество правильно классифицированных экземпляров / Общее количество экземпляров) * 100

Наиболее часто используемой метрикой проверки для регрессии является среднеквадратическая ошибка (MSE). MSE широко используется, потому что он обеспечивает исчерпывающую меру среднеквадратичной разницы между прогнозируемыми и фактическими значениями. Он более серьезно наказывает большие ошибки из-за операции возведения в квадрат, что может быть желательно в некоторых приложениях. Более низкие значения MSE указывают на лучшую производительность модели.

Спасибо за чтение ! , пожалуйста, не стесняйтесь обращаться для дальнейших обсуждений, вопросов или предложений через Linkedin.