Примечание 02: наблюдательные исследования и эксперименты (введение в машинное обучение)

В зависимости от того, на каком этапе цикла PPDAC мы начинаем нашу проблему машинного обучения, вы можете иметь больший или меньший контроль над собираемыми данными. Но где бы вы ни находились в цикле, вы должны учитывать, как собираются данные. Другими словами, мы должны знать больше о том, как было разработано исследование. Чтобы понять качество данных, мы должны знать немного больше о дизайне исследования. Прежде чем углубляться в это, мы должны понять две ключевые концепции:

  • Корреляция, также известная как ассоциация, — это когда значения одной переменной связаны со значениями другой переменной.
  • Причинность — это когда мы знаем, что переменная вызывает эффект. Причинно-следственную связь обычно очень трудно доказать, особенно на основе небольших выборок.

Важно помнить, что корреляция не доказывает причинно-следственную связь. Например, исследование, проведенное в 1999 году, показало, что у младенцев в возрасте ‹ 2 лет, которые спали при ночном освещении, был более высокий риск развития миопии. Позже другие исследования доказали, что родители с близорукостью проявляют предрасположенность оставлять свет включенным ночью. Это может означать, что общая причина использования ночных огней и генетическое наследование были причиной развития миопии у младенцев.

Несмотря на то, что причинно-следственную связь трудно доказать, мы можем приблизиться к ее доказательству, поставив адекватный эксперимент. При планировании эксперимента мы можем пойти в двух направлениях:

  • Наблюдательное исследование — это когда мы не контролируем значение какой-либо переменной, мы просто наблюдаем за развитием событий. В этом типе исследований вы найдете несколько смешанных переменных (т. е. переменных, которые связаны с объяснительной переменной и переменной отклика). Он редко используется для доказательства причинно-следственной связи. Наблюдательные исследования часто выбирают, когда рандомизированный эксперимент не может быть проведен из-за этических или практических ограничений.
  • Эксперимент — это когда мы контролируем значение одной или нескольких переменных. Вмешивающиеся переменные также могут присутствовать в экспериментах, но путем рандомизации выборки мы можем избежать этой проблемы.

Выборка

После определения характеристик нашего исследования мы также должны рассмотреть, сколько данных мы собираемся собрать. На самом деле перед нами стоит практическая задача: как нам изучить всю популяцию? Например, предположим, что мы собираемся собирать данные с помощью опроса. Сможем ли мы передать этот опрос всем жителям нашей страны? на нашем континенте? за границей?

Вместо того, чтобы биться головой о стену, пытаясь придумать, как провести выборку со всего мира, мы можем использовать инструмент под названием выборка. Выборка позволяет нам получать информацию о популяции без необходимости исследования каждого отдельного человека. Сокращая количество людей в нашем исследовании, мы не только уменьшаем рабочую нагрузку, но и упрощаем получение точек данных высокого качества. Несомненно, одним из ключевых соображений при выборке является создание достаточно большого набора данных, который позволит нам обнаружить истинную связь. Во-первых, нам нужно понять следующие основные понятия:

  • Население – это все, что мы хотим понять (например, все эпизоды из вашего любимого сериала, все ячейки).
  • Выборка – это подмножество интересующей совокупности.

Ключевое отличие состоит в том, что выборка обычно представляет собой подмножество, из которого мы можем собирать данные. Было бы непросто собрать данные о каждом отдельном человеке в популяции, но мы можем собрать данные из репрезентативного подмножества. Под репрезентативным мы подразумеваем достаточно большой и без каких-либо предубеждений, который будет точно отражать поведение населения.

Процесс перехода от совокупности к выборке называется выборкой. В статистике наша цель — сделать обратный процесс, т. е. перейти от выборки к генеральной совокупности, это называется вывод*.

Вывод означает достижение выводов о населении, основанных только на информации из выборки.

Систематическая ошибка выборки

Вывод возможен только в том случае, если подмножество отобранной совокупности является репрезентативным. Систематическая ошибка выборки возникает, когда выборка отличается (значительным образом) от генеральной совокупности из-за метода выборки.

Самый распространенный способ избежать систематической ошибки выборки – взять случайную выборку. Причина этого выбора заключается в том, что среднее значение случайной выборки будет сосредоточено вокруг истинного среднего значения генеральной совокупности.

Имейте в виду, что иногда случайная выборка невозможна. Это может быть связано с размером генеральной совокупности, небольшим бюджетом на сбор данных и т. д. В этих конкретных случаях вам нужно подумать о генеральной совокупности, которую вы фактически можете выбрать, помня о том, что вы можно только делать выводы об этой конкретной популяции.

Схемы отбора проб

Ниже приведены некоторые распространенные методы выборки, но есть и много других, более специализированных для определенных областей знаний.

  • Простая случайная выборка похожа на взятие проб с завязанными глазами.
  • Стратифицированная выборка означает разбиение совокупности на разные группы (например, возрастные группы) и последующую выборку из группы.
  • Кластерная выборка означает получение выборки из разнородной совокупности (например, из совокупности факультета компьютерных наук).

Схемы предвзятой выборки

Существует много способов, которыми ваша выборка может быть смещена, поэтому важно не упускать из виду аспект планирования сбора данных. Вот несколько примеров, которые могут привести к систематической ошибке выборки:

  • Выборка на основе переменной, которую вы изучаете. Например, спрашивая людей в супермаркете, сколько раз они готовят в неделю.
  • Выборка, основанная на добровольчестве, может привести к систематической ошибке. Например, отправить людям опрос о проблемах с электронной почтой (могут быть люди, которые даже не смогут ответить).
  • Интервьюировать людей публично, а не в частном порядке

смотрите также:

Близорукость и окружающее освещение ночью