Статистические основы машинного обучения: понимание и применение ключевых концепций

Описательная статистика и статистика вывода являются фундаментальными ветвями статистического анализа, широко используемыми в различных областях исследования. Эти два типа статистики служат разным целям и дают ценную информацию об интерпретации данных и процессах принятия решений.

Описательная статистика предполагает обобщение и представление данных осмысленным образом. Они дают представление о центральной тенденции, дисперсии и форме набора данных, позволяя исследователям понимать и сообщать ключевые характеристики. Такие меры, как среднее значение, медиана, мода, стандартное отклонение, дисперсия, диапазон и процентили, обычно используются в описательной статистике.

С другой стороны, вывод статистика фокусируется на выводах и выводах о большей совокупности на основе выборочных данных. Это включает в себя использование теории вероятностей и статистических методов для оценки значимости взаимосвязей, различий или закономерностей, наблюдаемых в данных. Проверка гипотез, доверительные интервалы и p-значения являются фундаментальными компонентами логической статистики, помогая исследователям делать надежные выводы и обобщения.

Среднее: часто называемое средним арифметическим или средним значением, представляет центральную тенденцию набора числовых значений. Он обеспечивает указание типичного значения или среднего значения набора данных. Важно отметить, что на среднее значение могут влиять выбросы или экстремальные значения в наборе данных. В таких случаях другие меры центральной тенденции, такие как медиана, могут обеспечить более надежное представление типичного значения.
Медиана: это статистическая мера, представляющая центральное значение в наборе данных, когда данные расположены в порядке возрастания или убывания. Это мера центральной тенденции, которая делит набор данных на две равные половины, при этом 50% точек данных находятся ниже медианы, а 50% выше ее. Если набор данных имеет нечетное количество наблюдений, медианой является среднее значение. Если набор данных имеет четное количество наблюдений, медиана является средним значением двух средних значений. Медиана часто предпочтительнее среднего при работе с асимметричными распределениями, где экстремальные значения могут непропорционально влиять на среднее значение.
Мода. Это статистическая мера, представляющая наиболее часто встречающееся значение или значения в наборе данных. Это мера центральной тенденции, которая определяет точку (точки) данных с наибольшей частотой появления. Режим полезен для понимания доминирующих значений или закономерностей в наборе данных, обеспечивая понимание наиболее часто встречающихся наблюдений. Он не рассматривает распределение других значений и не предоставляет сводку всего набора данных.
p-значение: это число, которое говорит нам, насколько вероятно наблюдать результаты, которые мы получили в наших данных, если нулевая гипотеза верна. Низкое значение p предполагает, что результаты вряд ли будут получены случайно, что приводит к отклонению нулевой гипотезы. Высокое значение p означает, что результаты могут получиться случайно, поэтому мы не можем отвергнуть нулевую гипотезу.
Функция извлечение:этоэто процесс, который включает преобразование необработанных или многомерных данных в сокращенное и более информативное представление. Он направлен на то, чтобы зафиксировать основные характеристики или особенности данных, которые имеют отношение к решению конкретной задачи или проблемы. Это может помочь преодолеть такие проблемы, как высокая размерность, шум или нерелевантные атрибуты, которые могут снизить производительность или эффективность алгоритмов машинного обучения.
Перекрестная проверка – это метод повторной выборки, используемый в машинном обучении для оценки производительности и способности модели к обобщению. Он включает в себя разделение доступного набора данных на несколько подмножеств или сгибов, последовательное использование каждого сгиба в качестве проверочного набора, а оставшиеся сгибы — в качестве обучающего набора. Основное преимущество перекрестной проверки заключается в том, что она обеспечивает более надежную оценку производительности модели по сравнению с одним разделением поезд-тест. Это помогает смягчить такие проблемы, как переоснащение или систематическая ошибка, которые могут возникнуть при оценке модели на ограниченной части данных.
Переоснащение: когда модель машинного обучения учится хорошо работать с обучающими данными, но не может обобщить новые, невидимые данные из-за чрезмерной сложности или запоминания шума в обучающем наборе.
Недостаточная подгонка. Когда модель машинного обучения не может уловить основные шаблоны и взаимосвязи в данных, что приводит к низкой производительности как на обучающих, так и на тестовых наборах.
Смещение-Дисперсия Компромисс: балансирование в машинном обучении между уменьшением смещения (недообучение) и снижением дисперсии (переоснащение) для достижения оптимального уровня производительность модели.
Матрица путаницы. Матрица путаницы — это инструмент оценки производительности, используемый в машинном обучении и статистике для оценки точности модели классификации. Матрица путаницы обеспечивает табличное представление прогнозов модели по сравнению с фактическими значениями истинности. Это помогает понять типы ошибок, совершаемых моделью, таких как ложные срабатывания, ложные отрицательные значения, истинные положительные и истинные отрицательные значения. Анализируя матрицу путаницы, можно получить различные показатели производительности, в том числе точность, точность, полноту и оценку F1, которые обеспечивают более полную оценку эффективности модели классификации.

                  Predicted Positive    Predicted Negative
Actual Positive         True Positive        False Negative
Actual Negative         False Positive       True Negative

Точность: оценивает эффективность модели классификации. Он измеряет долю правильно классифицированных экземпляров от общего числа экземпляров в наборе данных. Точность является полезной метрикой, когда классы в наборе данных сбалансированы, то есть они имеют примерно одинаковое представление. Стоит отметить, что сама по себе точность может не дать полной картины эффективности модели.
Точность : количественно определяет долю истинных положительных прогнозов (правильно предсказанных положительных случаев) от всех положительных прогнозов, сделанных моделью, включая как истинные положительные, так и ложные положительные результаты. Формула точности:

Точность = (истинные положительные результаты) / (истинные положительные результаты + ложные положительные результаты)

Высокое значение точности указывает на то, что модель делает меньше ложноположительных прогнозов и имеет более высокий уровень уверенности в правильной классификации положительных случаев.
Отзыв также известен как чувствительность или доля истинно положительных результатов (TPR). Он рассчитывается путем деления количества истинных положительных прогнозов на сумму истинных положительных и ложных отрицательных результатов:

Отзыв = TP / (TP + FN)

Он отвечает на вопрос: «Сколько из всех реальных положительных случаев модель правильно идентифицировала?». Более высокий балл отзыва указывает на то, что модель имеет лучшую способность фиксировать положительные экземпляры, что снижает вероятность ложноотрицательных результатов. В некоторых сценариях максимальное воспроизведение имеет решающее значение, например, в медицинских диагнозах, где пропуск положительных случаев (ложноотрицательные) может иметь серьезные последствия.
F1 оценка – это среднее гармоническое точности и полноты, которое рассчитывается по следующей формуле:

Оценка F1 = 2 * (точность * полнота) / (точность + полнота)

Оценка F1 находится в диапазоне от 0 до 1, где 1 представляет собой идеальный классификатор, который обеспечивает как высокую точность, так и высокую полноту. Среднее гармоническое придает больший вес низким значениям, а это означает, что оценка F1 будет низкой, если либо точность, либо отзыв низки. Это особенно полезно, когда набор данных несбалансирован, то есть один класс имеет гораздо большее количество экземпляров, чем другой.

Существуют определенные термины, которые требуют дальнейшего объяснения, поэтому они будут рассмотрены в последующих письменных материалах.

Статистические основы машинного обучения: понимание и применение ключевых концепций

Вопросы по теме