Как правило, когда вы получаете определенный результат, вы пытаетесь использовать этот результат и поднять его на следующий уровень.

Будь то путем изучения того, как один фактор (переменная) или комбинация переменных влияет на зависимую переменную (выход). В конце концов, вам нужно найти работающую формулу.

Известным примером является определение факторов, влияющих на цену продажи или стоимость квартиры, на основе различных удобств, которые предоставляются в здании, в дополнение к географическому положению, в котором оно находится, и т. д.…

Двумя популярными методами анализа вариации являются ANOVA и MANOVA.

Начиная с дисперсионного анализа

Чтобы полностью понять Manova, вам нужно сначала познакомиться с Anova. Не пропусти это, или я найду тебя!

Anova означает АнализOf вариации, когда мы сравниваем средние значения данного атрибута или переменной для нескольких групп.

Чтобы применить Anova, вам нужно:

  • Одна политомическая независимая переменная (имеет произвольное количество значений ‹три и более›). Здесь это называется однофакторным дисперсионным анализом, если у нас есть две политомические независимые переменные, это будет двухфакторный дисперсионный анализ. Подробнее о разнице вы можете узнать здесь.
  • Одна числовая зависимая переменная.

Основной вопрос, который у вас есть: будет ли числовая переменная результата зависеть от категориальной группировки независимой переменной?

Далее идет так называемая нулевая гипотеза, которую вы стремитесь опровергнуть в большинстве случаев, чтобы у вас было доказательство того, что изменение независимой переменной влияет на вывод зависимой переменной.

Нулевая гипотеза. Между средними группами нет статистически значимой разницы.

Что ожидается при использовании ANOVA

Для корректной работы Anova должны быть соблюдены некоторые условия:

  • Распределение каждой категориальной группы должно быть нормальным или примерно нормальным.
  • Стандартные отклонения каждой группы должны быть примерно равными.

Проверить это условие можно с помощью простого правила. Отношение наибольшего стандартного отклонения группы к наименьшему стандартному отклонению группы должно быть меньше, чем в 2 раза.

ANOVA в действии

Если вы помните, Anova расшифровывается как «Анализ вариаций», поэтому некоторые вариации следует изучать.

Они есть:

  • Вариация между группами
  • Вариация Внутри групп

Названия говорят сами за себя. Вариация между группами — это исследование среди всех групп, а вариация внутри групп — это исследование внутри каждой группы в отдельности.

В итоге мы получим значение, называемое F-statistic:

F-статистика = вариация между/вариация внутри

Небольшое интуитивное замечание: большое значение F-статистики является подтверждением того, что полученное различие не произошло случайно, и за ним стоит статистическая значимость, поскольку между группами больше различий, чем внутри групп. В конце концов, это противоречит нулевой гипотезе.

Сумма внутренних и внутренних отклонений называется общее отклонение. Вариации — это просто сумма квадратов вариаций или то, что называется ошибкой. Основное отличие состоит в том, что внутри группы выполняется сравнение каждой точки данных со средним значением всех точек в этой группе, а среднее значение каждой группы сравнивается со средним значением всех групп. в случае изменения между группами.

После получения этих двух значений вариации вы должны разделить их на степень свободы, чтобы получить окончательные вариации и вычислить F-статистику.

Формула степени свободы: N-1.

Если у нас 3 группы, то DOF = 3–1 = 2.

Если в наших данных 15 наблюдений, то DOF = 15–3 = 12 (3 — количество групп).

Я знаю, что может показаться трудным представить это в вашей голове, посмотрите на изображение ниже:

Сегодня все расчеты выполняются с использованием таких инструментов, как Python, Data Analysis Tool Pack в Excel, R и т. д. Но, если вы хотите увидеть, как на самом деле рассчитываются эти значения, посмотрите на картинку ниже и эту статью здесь.

k: количество групп (3), N: количество наблюдений всех групп (15).

Понимание результатов после теста и аналитические выводы

Уровни достоверности и значимости

Когда вы проводите статистический тест, вы должны учитывать две важные метрики.

Во-первых, у вас есть уровень уверенности. Как следует из названия, это уровень нашей уверенности в том, что мы пытаемся доказать. 95% CL используется в большинстве тестов, и одно из немногих мест, где вы увидите 99% CL, — это научные эксперименты и эксперименты, связанные со здоровьем.

Пример о CL взят из приведенного выше ресурса: «38% вероятных избирателей США теперь говорят, что их медицинское страхование изменилось из-за Obamacare».

Доверительный интервал 95% означает, что если опрос или исследование повторяется снова и снова, результаты будут соответствовать результатам фактического населения в 95% случаев.

Уровень значимости, также известный как Альфа (α), который равен 1-CL. Он показывает силу доказательств в выборке перед отклонением нулевой гипотезы, поэтому изменение или то, что мы пытались доказать, является статистически значимым. В случае 95% CL α равно 0,05, и это приводит нас к ключевым показателям, которые демонстрируют факт, учитывая, был ли наш тест успешным или нет.

Проверить окончательный результат можно двумя способами:

  • Либо с помощью P-значения, которое является значением вероятности, которое сообщает вам вероятность того, что результат будет получен, когда нулевая гипотеза верна, поэтому он поддерживает нулевую гипотезу. Итак, если P-Value ‹ α, который является нашим уровнем значимости, работает против нулевой гипотезы и показывает, что эффект не возник случайно, мы можем отклонить нулевую гипотезу.
  • Другой способ — сравнить F-статистику с чем-то, что называется F-критическим. Я буду говорить о F-критическом при выполнении примера чуть позже. Если F-статистика › F-критическая, мы отклоняем нулевую гипотезу.

Практический пример

Поскольку я убежденный поклонник концепции обучения на примере, я приведу один, чтобы концепции было легче понять.

Пример: независимой переменной являются уровни зависимости от социальных сетей, которые являются низкими, средними и высокими, поэтому мы можем выяснить влияние на общее количество часов ночного сна, что, очевидно, является нашей зависимой переменной.

Размер выборки: 15 человек (по 5 на каждый тип).

Результаты для каждой группы:

Низкий: 6, 7, 7, 8, 9 часов сна. [Среднее значение: 7, Стандартное отклонение: 1,019]

Средний: 4, 4, 5, 5, 6 часов сна. [Среднее значение: 5, Стандартное отклонение: 0,748]

Высокий уровень: 3, 2, 3, 3, 4 часа сна. [Среднее значение: 3, Стандартное отклонение: 0,632]

Вопрос.Влияет либольшее количество часов, проведенных в социальных сетях, на привычки сна?

Нулевая гипотеза. Количество часов, проведенных в социальных сетях, не влияет на продолжительность сна человека.

Работает ли ANOVA в нашем случае?

Если вы помните, есть два предположения, которые должны быть соблюдены, чтобы Anova заработала.

Во-первых, распределение каждой группы должно быть примерно нормальным, что и было соблюдено.

Во-вторых, стандартные отклонения каждой группы должны быть приблизительно равными, и это также было соблюдено, поскольку отношение наибольшего стандартного отклонения группы, равного 1,019, к наименьшему стандартному отклонению группы, равному 0,632 меньше, чем в 2 раза (1,019 / 0,632 = 1,612).

Я проведу тест с помощью пакета инструментов анализа данных в Excel.

Для наглядности я покажу фиктивные данные нашего случая:

Затем я создал сводную таблицу:

Знайте, что пришло время выполнить наш тест Anova!

Как вы можете видеть, я установил альфу на 0,05, что является значением по умолчанию, поэтому теперь мы тестируем с уровнем достоверности 95% и располагаем наши метки (наши группы: Низкий, Средний, Высокий) в первой строке.

Проверьте изображение ниже:

Пришло время проверить результат и сделать некоторые выводы!

Наше предположение было правильным, и здесь есть статистическая значимость! Я вижу, как вы пытаетесь сложить головоломку в своей голове, и вам интересно, как я пришел к правильному выводу?

Для уровня достоверности 95% альфа равна 0,05. Как мы обсуждали ранее, один из способов подтвердить, что ваш тест сработал и вы можете отвергнуть нулевую гипотезу, — это иметь значение P ‹ α, и, как вы можете видеть в приведенной выше таблице результатов , P-Value ‹ 0,05, так что существует статистическая значимость того, что большее количество часов в социальных сетях влияет на привычки сна!

Второй способ заключается в том, что F-статистика должна быть больше, чем F-критическая, и вы видите, что F-статистика › 3,88.

МАНОВА

Если вы поняли, то сначала Manova — это Anova плюс буква M, и эта буква M означает Многомерный.

Проще говоря, Manova представляет собой многомерный анализанализ Of вариации и расширяет возможности Anova, так что теперь мы можем изучить влияние сочетания одной или нескольких категориальных предикторов (независимых) на сочетание двух или более исходных (зависимых) переменных.

В этом случае наш тест будет сосредоточен на выявлении факта относительно того, могут ли средние различия между группами независимых переменных в смеси зависимых переменных происходить случайно (нулевая гипотеза) или они имеют статистическую значимость.

Что ожидается при использовании MANOVA

Чтобы Manova работала должным образом, должны быть соблюдены некоторые условия:

  • Для каждой зависимой переменной распределение каждой группы должно быть нормальным или примерно нормальным.
  • Стандартные отклонения каждой группы должны быть примерно равными.

МАНОВА в действии

В ANOVA мы используем одномерный F-критерий для определения значимости фактора; в то время как в MANOVA мы используем многомерный F-критерий под названием Лямбда Уилка.

Эта лямбда является мерой, которая появится в выходных данных теста Manova.

Лямбда Уилка — это статистика, которая используется в MANOVA для проверки общей значимости взаимосвязи между независимыми переменными и зависимыми переменными. Он рассчитывается как отношение суммы квадратов члена ошибки к сумме квадратов модели.

Статистика лямбда-теста Уилка используется для оценки нулевой гипотезы о том, что средние значения зависимых переменных одинаковы для всех уровней независимой переменной (переменных). Если лямбда-статистика Уилка небольшая, это указывает на наличие сильной взаимосвязи между независимыми переменными и зависимыми переменными, и нулевая гипотеза, вероятно, будет отклонено. С другой стороны, если лямбда-статистика Уилка большая, это указывает на то, что между независимыми переменными и зависимыми переменными нет сильной связи, а значение null гипотеза, скорее всего, будет принята.

Пример из реальной жизни

MANOVA — это мощный инструмент для анализа многомерных данных, который часто используется в таких областях, как психология, биология и маркетинг, чтобы помочь исследователям лучше понять взаимосвязь между переменными и принимать обоснованные решения. — чатGPT

Предположим, вы исследователь, изучающий влияние нового метода обучения на успеваемость учащихся по математическому курсу. У вас есть две группы студентов — одна группа, получившая новый метод обучения, и другая группа, получившая традиционный метод обучения. Вы хотите узнать, есть ли существенная разница в средних результатах двух групп на двух разных экзаменах по математике (экзамен 1 и экзамен 2). — чатGPT

Чтобы проверить это, вы можете использовать MANOVA. В этом случае двумя зависимыми переменными будут баллы за экзамен 1 и экзамен 2, а независимой переменной будет метод обучения (новый или традиционный). — чатGPT

Вы должны собрать данные о баллах двух групп на двух экзаменах, а затем использовать пакет статистического программного обеспечения для выполнения анализа MANOVA. Если результаты анализа показывают, что существует значительная разница в средствах двух групп на двух экзаменах, то можно сделать вывод, что новый метод обучения оказал значительное влияние на успеваемость учащихся. — чатGPT

Вот хорошее и краткое видео о реализации MANOVA на Python, в котором рассказывается о деталях и показателях, на которые следует обратить внимание при оценке вашего статистического теста, а также некоторые дополнительные материалы:

Я надеюсь, что к настоящему моменту вы сохранили полное представление об этих двух важных статистических тестах. Если у вас есть какие-либо комментарии, сомнения или опасения, не стесняйтесь оставлять комментарии, чтобы мы могли обсудить это подробнее. В противном случае подбодрите меня хлопком!

Спасибо, что уделили время, и давайте расширим наши знания!