Визуализация данных для науки о данных: что и почему?

Визуализация данных — это процесс получения статистических данных и размещения их в визуальных факторах, таких как карта или график. Визуализация данных облегчает человеческому мозгу понимание значительных и мелких данных, а визуализация также упрощает восприятие закономерностей, тенденций и выбросов в категориях данных.

Визуализация данных важна, потому что визуально представленные числа более привлекательны, когда представляются владельцам бизнеса или заинтересованным сторонам. Согласно Tableau, «[визуализация данных] является одним из самых полезных профессиональных навыков для развития. Чем лучше вы сможете передать свои мысли визуально, тем лучше вы сможете использовать эту информацию».

Пакеты визуализации данных

В основном он имеет 3 пакета: -

  • Matploltlib — это самый простой пакет, который используется для построения простых и стандартных графиков, таких как гистограммы, круговые диаграммы и т. д. Здесь построение выполняется быстро.
  • Seaborn — это пакет, созданный поверх matplotlib и поддерживающий множество сложных графиков, таких как блочная диаграмма, парная диаграмма и т. д.
  • Plotly — это расширенный пакет, который помогает нам получить некоторые интересные функции, связанные с графиками.

В этой статье рассматриваются визуализации с использованием библиотеки Seaborn, которая в основном используется в области науки о данных.

Импортировать библиотеки

Первым шагом для работы над визуализацией данных с помощью seaborn является импорт соответствующих пакетов вместе с библиотеками NumPy и Pandas. См. рисунок ниже.

Какие графики можно создавать с помощью Seaborn?

Для одномерных распределений можно использовать следующие графики:

  • Distplot.Самый простой способ посмотреть на одномерное распределение — построить график distplot. По умолчанию он дает гистограмму и соответствует оценке плотности ядра. Можно добавить или удалить KDE и даже добавить график, который рисует вертикальную галочку при каждом наблюдении.

  • Displot с KDE

  • Дистплот с ковриком

Для двумерных распределений можно использовать следующие графики:

  • Совместная диаграмма с использованием рассеяния. Наиболее знакомый способ взглянуть на двумерное распределение — это построить точечную диаграмму. Jointplot позволяет нам сопоставить до двух distplot. Он показывает взаимосвязь между двумя переменными. Здесь на ваш вкус может быть любой сюжет.

  • Совместный график с использованием Hex-

  • Совместный сюжет с использованием KDE

  • Совместный график с использованием регрессии

Для парных двумерных распределений можно использовать следующие графики:

  • Парный график. Этот график отображает парные отношения во всем фрейме данных. по умолчанию он также рисует одномерное распределение каждой переменной по диагональным осям.

Для построения диаграмм с категориальными данными можно использовать следующие графики:

  • Полосная диаграмма. На ленточной диаграмме точки диаграммы рассеяния обычно перекрываются. Это затрудняет просмотр полного распределения данных. Одним из простых решений является корректировка позиций (только вдоль категориальной оси) с помощью некоторого случайного «джиттера».

  • Swarmplot. Другой подход заключается в использовании функции swarm plot(), которая размещает каждую точку диаграммы рассеяния на категориальной оси с помощью алгоритма, избегающего перекрытия точек.

  • Гистограмма. Гистограмма — это общий график, который позволяет агрегировать категориальные данные на основе некоторой функции, по умолчанию — среднего значения. Гистограммы включают 0 в диапазоне количественной оси, и они являются хорошим выбором, когда 0 является значимым значением для количественной переменной, и вы хотите провести сравнение с ним.

  • График подсчета.График подсчета аналогичен гистограмме, за исключением того, что оценщик явно подсчитывает количество вхождений. Вот почему мы передаем только значение x.

  • Pointplot. Альтернативный стиль визуализации той же информации предлагается с помощью функции pointplot(). Эта функция также кодирует значение оценки с высотой на другой оси, но вместо того, чтобы отображать полную полосу, она просто отображает точечную оценку и доверительный интервал. Кроме того, точечный график соединяет точки из одной категории оттенков. Это позволяет легко увидеть, как основное отношение изменяется в зависимости от второй переменной.

  • Boxplot и Violin Plot. Они используются для отображения распределения категорийных данных. Коробчатая диаграмма (или диаграмма «ящик с усами») показывает распределение количественных данных таким образом, чтобы облегчить сравнение между переменными или между уровнями категориальной переменной.

  • Факторный график. Используются для многопанельных категориальных графиков. Могут быть заданы различные типы исходных данных, такие как точка, полоса, счет, коробка, скрипка или полоса.

  • График регрессии. Графики регрессии в Seaborn в первую очередь предназначены для добавления визуального руководства, которое помогает выделить закономерности в наборе данных во время исследовательского анализа данных. Графики регрессии, как следует из названия, создают линию регрессии между двумя параметрами и помогают визуализировать их линейные отношения.

Резюме!

В этой статье мы узнали о различных типах визуализаций, которые могут быть подготовлены библиотекой seaborn. Еще многое предстоит изучить, но это основные и наиболее часто используемые графики, которые используются в области науки о данных.