P-значение упрощено для абсолютных новичков

Одной из наиболее неправильно понимаемых тем в области проверки статистических гипотез является P-значение. В этой статье я объясню, что такое P-значение и как его интерпретировать. Я чувствовал, что, хотя есть много статей, связанных с P-значением, большинство из них не служит цели объяснения этого с помощью правильных примеров. Прежде чем перейти непосредственно к теме P-тестов, позвольте мне правильно подготовить почву, объяснив некоторые термины, которые я буду использовать в этой статье.

Что понимается под проверкой гипотез?

Предположим, вы живете в городе Калькутта в Индии. Вы глава отдела по борьбе с мистификациями. Теперь некто по имени Робин разместил видео в Твиттере и заявил: «В 2022 году, если вы подбросите монету, в большинстве случаев выпадет голова». Поскольку звезды выстроились таким образом, хвост никогда не выпадет. объявиться. Пожалуйста, посмотрите видео для доказательства». В течение 10 минут была тысяча ретвитов, и люди начали публиковать одно и то же (в основном ее подписчики). Ты разозлился и позвонил Робину. Вы почти уверены, что ее заявление абсурдно. Теперь вы хотите проверить, верно ли ее утверждение или ваше чутье, используя проверку гипотез. На статистическом жаргоне:

Статистическая проверка гипотез — это метод статистического вывода, используемый для определения возможного вывода из двух разных и, вероятно, противоречащих друг другу гипотез.

Что такое нулевая и альтернативная гипотезы?

Итак, в этом примере вы хотите доказать, что вероятность выпадения орла будет такой же, как и вероятность выпадения решки. Таким образом, ваша нулевая гипотеза будет выглядеть так: «Вероятность выпадения орла и решки одинакова». Сможете ли вы быстро угадать, какая будет альтернативная гипотеза? Да, вы правильно угадали, вероятность выпадения орла или решки не одинакова. Чтобы еще больше упростить ее и согласовать с нашим примером, альтернативной гипотезой будет «В 2022 году, если вы подбросите монету, в большинстве случаев выпадет решка». Нулевая гипотеза обозначается как H0.

Если вы быстро просмотрите определение нулевой гипотезы, вы найдете что-то вроде этого:

«Нулевая гипотеза — это характерная арифметическая теория, предполагающая, что в наборе заданных единичных наблюдаемых переменных между двумя наборами наблюдаемых данных и измеряемых явлений не существует статистической взаимосвязи и значимости. “

Тогда вы, должно быть, думаете - хорошо, поняли, но как связать пример с этим определением. Говорю вам, это довольно просто. Позвольте мне еще раз подробно рассказать о том, что делал Робин:

Ее утверждение: вероятность выпадения орла в 2022 году больше, чем вероятность выпадения решки или P(H в 2022 году)>0,5. Это называется тестовой статистикой.
Ее эксперимент (видео, которое она разместила в Твиттере для доказательства): трижды подбросила монеты и бум, три орла.

Итак, в этом случае наша нулевая гипотеза будет:

Нулевая гипотеза: не существует статистических взаимосвязей и значимости значения P(H) >0,5 и ее эксперимента. Или, другими словами, вероятность выпадения орла и решки одинакова или P(H)=0,5.

Чтобы сделать вывод, нам понадобятся два новых термина: 1. Уровень значимости и 2. P-значение. Итак, давайте углубимся в них.

Что такое P-значение?

«P-значение» — это вероятность наблюдения значения для получения трех орлов из 3 бросков, если наша нулевая гипотеза верна.

Мы записываем P-значение в краткой форме как P-Value= P(Результаты эксперимента | H0 верно) или вероятность получения результата трех решек из трех подбрасываний монеты, если наша нулевая гипотеза верна. В статистической чепухе:

В проверке значимости нулевой гипотезы p-значение — это вероятность получения результатов теста, по крайней мере столь же экстремальных, как фактически наблюдаемые результаты, при условии, что нулевая гипотеза верна.

Таким образом, в этом примере, чтобы найти p-значение, мы должны определить, какова вероятность выпадения трех решек при трех подбрасываниях монеты, если мы предполагаем, что монета беспристрастна. Давайте разберемся с основами, позвольте мне задать вам несколько вопросов:

Какова вероятность выпадения орла в беспристрастной монете? Ну, вы правильно догадались, это 0,5 или 1/2.
А теперь скажите мне, какова вероятность того, что при двух подбрасываниях непредвзятой монеты выпадет два орла? Это просто правильно. Вероятность будет 1/2*1/2, т.е. 1/4. (Среди 4 различных результатов HH, HT, TH и TT нас интересует появление HH. Так что это 1/4)
Последний вопрос: какова вероятность того, что при трех подбрасываниях непредвзятой монеты выпадет три орла? Это 1/8 или 0,125. Или, другими словами, если вы подбросите три монеты одну за другой 1000 раз, 125 раз выпадет три решки.

Теперь вы можете догадаться, что такое P-значение для нашего примера? Не торопись.

P-значение в нашем примере равно 0,125. Или вероятность выпадения трех орлов из трех подбрасываний, даже если монета беспристрастна, равна 0,125. Это похоже на то, что даже сломанные часы показывают правильное время два раза в день. Следовательно, выпадение трех орлов подряд может быть абсолютно случайным.

Каков тогда уровень значимости?

Теперь, чтобы доказать, правильно ли его утверждение или нет, нам нужно иметь право на бар. Этот столбец называется уровнем значимости.Обычно эмпирическим правилом является 5 %. Если процент p-значения составляет ‹5 %, мы отклоняем нулевую гипотезу.

Здесь, в данном случае, нулевая гипотеза — «Монета не смещена в сторону головы». Поэтому мы не можем отвергнуть его. Альтернативная гипотеза (H1) в этом случае такова: «Монета смещена к орлу», и мы ее отвергаем. Поскольку наше значение P равно 0,125 или 12,5%. Чтобы определить его:

Уровень значимости (или уровень α) — это порог, определяющий, можно ли считать результат исследования статистически значимым после выполнения запланированных статистических тестов. Чаще всего он устанавливается равным 5% (или 0,05), хотя в зависимости от исследования могут использоваться и другие уровни. Это вероятность отклонения нулевой гипотезы, когда она верна (вероятность совершить ошибку I рода). Например, уровень значимости 0,05 указывает на 5% риск сделать вывод о наличии различия, хотя фактического различия нет.

Так что к настоящему времени Робин будет довольно противно, узнав, что ее требование отклонено. Теперь обсудим альтернативу, которая могла бы произойти.

Что, если бы Робину выпало 5 орлов из 5 бросков? Соответствующий расчет p-значения:

В этом случае соответствующее P-значение было бы: (1/2) * (1/2) * (1/2) * (1/2) * (1/2) [Вы можете сделать математику как упражнение]. Или вероятность выпадения 5 орлов из 5 бросков, если монета беспристрастна, составляет 1/32, т.е. 0,03125. Если вы подбросите 5 монет одну за другой 1000 раз, вы получите 5 орлов из 5 бросков примерно 31 раз, что не является шуткой.

Если вероятность чего-то составляет всего 3%, и вы провели один эксперимент и получили то же самое, это будет означать, что что-то не так с вашим первоначальным предположением о предвзятости монет. Следовательно, в таком случае мы придем к выводу, что из-за выравнивания звезд в 2022 году вероятность выпадения орла выше. Или на статистическом жаргоне принял альтернативную гипотезу.

Если вам понравилась статья, ознакомьтесь и с другими моими статьями: Книга по машинному обучению, ИТ-индустрия для начинающих.