Краткое руководство по различиям между количественными и качественными данными.

Есть много инженеров, которые никогда не занимались статистикой или наукой о данных. Но чтобы построить конвейеры обработки данных или переписать код, созданный специалистами по данным, в адекватный, легко поддерживаемый код, многие нюансы и недопонимания возникают с инженерной стороны. Для тех инженеров по Data / ML и начинающих специалистов по данным я делаю эту серию постов. Я попытаюсь объяснить некоторые базовые подходы на простом английском языке и на его основе объяснить некоторые базовые концепции Data Science.

Вся серия:

Определение типа переменной, с которой вы работаете, всегда является первым шагом в процессе анализа данных. Позже это позволяет легко определить, какой тип анализа является наиболее подходящим.

В самом общем виде данные можно разделить на количественные и качественные.

Количественный, как следует из названия, представляет собой тип данных, в котором числа имеют математическое значение, они указывают количество, количество или измерение характеристики.

Когда мы переходим к количественным показателям, числа означают сами себя. То есть дополнительной информации не требуется: 1,5 - 1,5, 5 - 5, 100 - 100.

Дискретная шкала является количественной, но не занимает всего места. Возьмем, к примеру, количество детей в семье: у нас может быть 1 ребенок, 3 ребенка, 5 детей и даже 10, но у нас не может быть 1,5 или 3,75. То есть это какие-то точечные дискретные значения.

Непрерывная шкала - это шкала, занимающая все пространство, она может быть любой от -∞ до + ∞, может быть дробной. Например, мы можем измерять время в днях, часах, секундах, миллисекундах и т. Д. Сплошная шкала определяется по всем возможным значениям.

Качественные переменные - это переменные, которые отражают свойство или качество объектов. И числа здесь означают не сами себя, как в количественном случае, а какие-то качества или свойства предметов. Другими словами, они служат маркерами для некоторых категорий.

Например, предположим, что мы сравниваем людей, живущих в одном штате, с людьми, живущими в другом штате. Мы можем закодировать людей из Калифорнии как 1, жителей Нью-Йорка как 2, один и два ничего не значат, кроме того, что они обозначают эти категории, которые являются центром нашего анализа.

Качественные переменные делятся на номинальные и порядковые.

Давайте подробнее рассмотрим, что означает каждый из этих типов. Начнем с номинальных переменных, это самая простая и простая шкала. Единственная информация, которую он содержит, - это информация об объекте, принадлежащем определенному классу или группе. Это означает, что эти переменные можно измерить только с точки зрения принадлежности к некоторым существенно различающимся классам, и вы не сможете определить порядок этих классов.

Например, мы можем изучать людей из разных штатов или людей с разными глазами: голубыми, зелеными и карими глазами. Все это будут номинальные переменные - неважно, какого цвета ваши глаза - в этих значениях нет порядка.

Порядковые переменные немного отличаются от номинальных переменных тем, что отображается порядок. Итак, значения делят объекты на классы или группы и упорядочивают их определенным образом.

Например, в школе есть оценки - A, B, C, D, F. И в этом случае мы можем с уверенностью сказать, что человек, имеющий оценку A, скорее всего, более подготовлен к тесту, чем человек, получивший F. В этом случае мы не можем сказать, насколько, но мы можем точно сказать, что A лучше, чем D.

Материалы

Спасибо за внимание!

Любые вопросы? Оставьте свой комментарий ниже, чтобы начать фантастические обсуждения!

Приходи поздороваться в Твиттере и подписывайся на меня в LinkedIn. Планируйте лучшее!

Больше контента на plainenglish.io