После успешного объяснения моих предыдущих 2 частей блогов статистики, здесь я приношу часть 3, которую я считаю настоятельно рекомендуемой на данном этапе после части 2 в это время! и

Часть1, Часть2

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Совет для этого блога, сколько много ли нам нужно знать по математике и статистике?

Миф: чтобы стать специалистом по данным или инженером по машинному обучению, нужно очень хорошо разбираться в математике и статистике.

Правда: { я всегда верю!}

Вы должны хорошо разбираться в статистике и уверенно использовать различные статистические концепции!! Вы не статистик и не математик!! Ваша работа состоит в том, чтобы понимать концепции и знать, как использовать инструменты, основанные на концепциях, для достижения результатов, и именно здесь я прихожу и пишу БЛОГ!

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Подведение итогов: обратите внимание на приведенную ниже формулу для генеральной совокупности и выборки:

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Оглавление:

  1. Что такое случайная величина?

а. Типы случайных величин (дискретные и непрерывные)

2. Вероятность и функции распределения вероятностей

-> Что это такое? Различные формулы! и пару примеров

3. Распределения вероятностей

-› Что такое функция распределения на одном примере?

4. Что такое функция плотности вероятности (PDF), функция массы вероятности (PMF) и функция кумулятивной плотности (CDF)?

5. Дискретное распределение вероятностей

а. Распределение Бернулли или случайная величина Бернулли?

б. Биномиальное распределение?

в. Распределение Пуассона?

6. Непрерывное распределение вероятностей

а. Равномерное распределение?

б. Что же такое «неравномерное распределение»?

в. Нормальное распределение? Концы с концами!

д. Стандартное нормальное распределение или SND?

е. Распределение t-теста Стьюдента?

Без лишних слов давайте перейдем к подробному содержанию:

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

1. Что такое случайная величина?

Все, что нельзя предсказать, безусловно, называется RV

Например, кто-то подбрасывает монету/бросает кубик. Итак, до подбрасывания кубика/бросания монеты мы ничего не можем сказать. Итак, есть так много вещей, которые невозможно предсказать до проведения эксперимента!

A) Объясните дискретную случайную переменную и непрерывную RV (непрерывное распределение)

Типы случайных величин

Случайные величины подразделяются на дискретные и непрерывные. Основное различие между этими двумя категориями заключается в типе возможных значений, которые может принимать каждая переменная.

  1. Дискретная случайная переменная.Дискретная случайная величина — это (случайная) переменная, значения которой принимают только конечное число значений.

Например: количество неисправных лампочек в коробке, количество детей в семье.

2. Непрерывная случайная переменная. В отличие от дискретных переменных, непрерывные случайные переменные могут принимать бесконечное число возможных значений.

Например: время, необходимое для завершения гонки, промежуток времени между прибытием в больницу

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

2. Вероятность и функции распределения вероятностей

a) Что такое вероятность?

Большинство событий трудно точно предсказать, и поэтому мы можем найти вероятность того, что событие произойдет или не произойдет, — это называется вероятностью.

Понятие вероятности: это означает, насколько вероятно событие, которое должно произойти, или вероятность возникновения события.

Например: Нельзя сказать, что, исходя из моего анализа, компания обязательно увеличит свои продажи на 25% к концу следующего квартала, всякое бывает. Но можно с уверенностью сказать, что к концу следующего квартала компания увеличит свои продажи на 25% с большей вероятностью.

б) Формулы для вероятности:

-› 1. Классическая модель:

Например: Итак, когда я подбрасываю монету и хочу узнать вероятность выпадения орла, количество исходов, в которых произошло событие, будет равно 1, а общее количество возможных исходов равно это может быть либо голова, либо хвост.

Таким образом, общее количество возможных исходов равно двум. Значит, в этом случае вероятность получить голову будет

= 1 (Количество исходов, в которых происходит событие) / 2 (Общее количество возможных исходов эксперимента)

-› 2. Относительная частота появления:

Например:В данном случае позвольте мне привести пример, когда я иду из дома в офис, и я планирую добраться туда в 6:30 утра.

Иногда я дохожу до 6:25, иногда реагирую в 6:30, иногда дохожу до 6:35 и так далее.

Итак, скажем теперь, если я хочу узнать, какова вероятность того, что я доберусь до офиса в 6:30 или раньше.

Итак, что я сделаю, так это перечислю все случаи, когда я приходил в офис. Итак, предположим, я записываю свое время достижения офиса в течение 100 дней, и из этих ста дней я вижу, что 35 дней я достиг в 6:30 или раньше.

Таким образом, здесь вероятность добраться до офиса в 6:30 или раньше будет равна

= 35(количество событий) / 100(общее количество возможных событий)

-› 3. Условная вероятность

Условная вероятность — это вероятность того, что событие произойдет при условии, что другое событие уже произошло.

P (A | B): выше обозначены средние значения (вероятность A при условии B истинна)

Например:

Дано. Ученикам одного класса было предложено два теста по математике. Первый тест сдали 60% учащихся.

в то время как только 40% студентов сдали оба теста.

Найти Какой процент учащихся, сдавших первый тест, прошел второй тест?

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

3. Распределения вероятностей!

Прежде всего, давайте обсудим Что такое функция распределения?

Функция распределения — это математическое выражение, описывающее вероятность различных возможных исходов эксперимента.

Обозначается как Переменная ~ Тип (Характеристики).

Например: Эксперимент с подбрасыванием правильной монеты: если мы используем X для обозначения событий, распределение вероятности X примет значение 0,5 для X = орел и 0,5 для X = решка.

ВЕРОЯТНОСТЬ всегда P ‹= 100%, но не более 100%

ВЕРОЯТНОСТЬ всегда находится в диапазоне от 0 до 1 {0‹=P‹=1}

и общая вероятность всегда =1

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

4. Что такое функция плотности вероятности (PDF), функция массы вероятности (PMF) и функция кумулятивной плотности (CDF)?

Прежде чем углубляться в типы распределений, важно пересмотреть основные понятия, такие как функция плотности вероятности (PDF), функция массы вероятности (PMF) и функция кумулятивной плотности (CDF).

a) Функция плотности вероятности (PDF):

Он описывает распределение вероятностей непрерывной случайной величины. Вероятность, связанная с одним значением, всегда равна нулю.

b) Функция массы вероятности (PMF)

Это статистический термин, описывающий распределение вероятностей дискретной случайной величины.

c) Кумулятивная функция распределения (CDF)

Это еще один метод описания распределения случайной величины (непрерывной или дискретной).

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

5. У нас есть дискретное распределение вероятностей:

a) Распределение Бернулли или случайная величина Бернулли

Распределение Бернулли: одно испытание с двумя возможными исходами

Он должен иметь ровно 2 исхода:

Например: есть смещенные монеты, где P(H) = 2/3 и P(T) = 1/3.

б) Биномиальное распределение:

c) Распределение Пуассона:

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

6) Непрерывное распространение

Всякий раз, когда данные являются непрерывными, эти данные называются непрерывно распределенными данными.

Например. Предположим, кто-то говорит завтра ровно в 12:00, какое значение P(T = 24 градуса Цельсия)

Временных значений будет бесконечно много, учитывая прошлые/исторические данные, поэтому ответ: 1/бесконечность = 0 (неисчислимое)

ПРИМЕЧАНИЕ: в CD вероятность каждой точки равна нулю

Тип непрерывного распространения:

а) Равномерное распределение:

Равномерное распределение относится к статистическому распределению, при котором все исходы равновероятны.

Равномерный график распределения содержит столбцы одинаковой высоты, представляющие каждый исход.

например: Fair Dice: 1/6 во всех 6 событиях = 1/6 = 0,166

б) Что такое «неравномерное распределение»?

Здесь плотность поможет нам определить, есть ли у нас больше шансов получить данные из определенных интервалов (в этом распределении вопрос может быть сформулирован, например, как: какие температуры находятся в интервале от 25 до 30 в неделю)

Если плотность высокая, у нас больше данных

Общая площадь под кривой всегда = 1

в) НОРМАЛЬНОЕ распределение:

Нормальное распределение является важным непрерывным распределением, поскольку к нему можно аппроксимировать большое количество случайных величин, встречающихся на практике.

ND, также известное как распределение Гаусса, представляет собой распределение вероятностей, симметричное относительно среднего, показывающее, что данные, близкие к среднему, встречаются чаще, чем данные, далекие от среднего.

ND используется только для непрерывных данных, тогда как предыдущие Binomial и Poison предназначены для дискретных данных.

Например: зарплаты людей / рост людей, где большинство людей лежат посередине, а некоторые ниже и выше

Существует 2 типа параметров, определяющих форму кривой нормального распределения:

Первый параметр – дисперсия (σ²)

Если спред меньше -> низкая дисперсия, т.е. меньшая плотность

Если спред больше -> высокая дисперсия, т.е. большая плотность

2-й параметр — среднее значение (µ).

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

г) Стандартное нормальное распределение или SND:

Обозначается как Z ~ N(0, 1). И читается как Z — непрерывная случайная величина, которая следует нормальному распределению со средним значением 0 и дисперсией 1.

Это преобразование нормального распределения таким образом, что среднее = 0, а стандартное отклонение 1.

Кроме того, существует таблица, в которой приведены наиболее часто используемые значения CDF стандартного нормального распределения. Эта таблица известна как таблица Z-показателей.

Формула стандартизации: Z = (X-μ)/σ

e) Распределение t-критерия Стьюдента:

Аппроксимация небольшого размера выборки нормального распределения

Оно обозначается как X ~ t(k). И читается как X — непрерывная случайная величина, которая соответствует распределению T Стьюдента с параметром k.

где k — степени свободы. Если размер выборки равен n, то k = n-1.

Например. Например, предположим, что мы имеем дело с общим количеством яблок, проданных владельцем магазина за месяц. В этом случае мы будем использовать нормальное распределение. Тогда как, если мы имеем дело с общим количеством яблок, проданных за день, то есть с меньшей выборкой, мы можем использовать t-распределение.

Последние мысли

Вы можете освоить анализ данных и получить надежные результаты, подробно изучив различные типы вероятностных распределений с помощью Python. Имея опыт и понимание этих распределений вероятностей, вы сможете решать сложные вопросы и давать дельные советы своей компании.

В следующем блоге я расскажу о различных типах всех статистических тестов с использованием Python.

Вы можете получить доступ к моей подробной статистике, легко понимаемой части ниже:-

Часть1

Понимание статистики,

  • Разница между данными и информацией и ее типами данных,
  • Уровни измерений: (категориальный {качественный}, числовой {количественный})
  • Население и выборка,
  • Источники данных,
  • Хорошие вопросы, которые должны соответствовать характеристикам, и полезные термины для ознакомления

"Часть 2"

Я обсуждал на:

  1. Объяснил 2 варианта использования и увидел, как ничего не делать вслепую!

2. Две основные ветви статистики (объяснение): логический и описательный.

3. Подробно изучите «ОПИСАТЕЛЬНУЮ статистику».

1) Показатели центральной тенденции (также известные как 1-й момент принятия бизнес-решения).…… -› (такие как СРЕДНЕЕ, МЕДИАНА и МОДА), ……{С примерами и формулами}

2) Меры дисперсии {2-й момент принятия бизнес-решения (мера изменчивости)}- ›(такие как ДИАПАЗОН, ДИСПЕРСИЯ и стандартное отклонение),…….{С примерами и формулами}

3) Показатели положения-› (квартили, квантили-›децили, процентили)…………{С примерами и формулами} …. В Quartiles мы обсуждали «BOXPLOT».

4) Мера асимметрии (3-й момент делового решения (асимметрия))…..{С примерами и формулами}… В предыдущем разделе об асимметрии мы взяли один пример и узнали «ГИСТОГРАММА» и как она связана с асимметрией!!

О [Данные с правым/положительным перекосом], [Данные с левым/отрицательным перекосом], [НОРМАЛЬНЫЕ данные].

и что происходит с асимметрией, если среднее, медиана и мода больше или меньше друг друга?

5) Деловое решение 4-го момента (эксцесс)… {Понимание

о {[данные лептокурта (положительный эксцесс)], ……………………………[данные платикурта (отрицательный эксцесс)], [данные мезокурта/нормальные данные]

- - - - - - - - - - - -КОНЕЦ - - - - - - - - - - - - - - - - - - -

Я попытался написать подробную статью, и я надеюсь, что мне это удалось. Я постараюсь продолжать добавлять больше контента, который будет ссылаться друг на друга!

Если вам понравилась статья и вы хотите поддержать меня, обязательно сделайте следующее:

👏 Похлопайте истории (100 хлопков) и следуйте за мной 👉🏻Сайкиран Дасари

📑 Смотрите больше контента в моем Среднем профиле

🔔 Следуйте за мной: LinkedIn | Средний| Гитхаб| Твиттер|

🚀 Помогите мне охватить более широкую аудиторию, поделившись моим контентом с друзьями и коллегами.