Использование Pandas, Plotly Express, Dash и Heroku

Визуализация данных используется почти в каждом секторе для лучшего понимания данных. Поскольку интерпретировать данные из CSV-файла может быть сложно, с другой стороны, становится намного проще понять данные, представленные в виде диаграммы или карты. Затем, основываясь на этих выводах, мы можем принимать важные решения. Вот почему важно знать, как использовать инструменты визуализации данных в качестве аналитика данных, специалиста по данным или разработчика. Вы можете строить графики или графики с помощью языков программирования, таких как Python, или использовать аналитические сервисы, такие как Microsoft Power BI.

Здесь мы будем использовать прежнюю технику, используя Pandas, Plotly Express и Dash. Pandas — это инструмент для анализа и обработки данных. Plotly — это инструмент визуализации данных с открытым исходным кодом для создания интерактивных диаграмм и карт. В этом посте мы будем использовать Plotly Express, библиотеку визуализации Python. Это оболочка для библиотеки Plotly Python. Наконец, мы будем использовать Dash для развертывания нашего приложения для визуализации данных в Интернете с помощью Heroku.

Настраивать

Во-первых, убедитесь, что на вашем компьютере установлен Python. Также вам необходимо установить три пакета Python. Вы можете сделать это, выполнив следующие команды pip (установщик пакетов для Python) в своем терминале (я использую macOS).

pip install pandas
pip install plotly
pip install dash

Набор данных

Давайте загрузим проект Python с GitHub, который также содержит набор данных. Для любой визуализации данных нам нужны наборы данных. Здесь я использую набор данных, который включает телешоу и фильмы, размещенные на Netflix. Вы можете скачать набор данных с Kaggle (лицензия CC0: Public Domain). Структура данных следующая.

Панды

Если вы новичок в пандах, загляните в файл Jupyter Notebook, который содержит примеры кода панд. Вы можете скачать его с моего GitHub. Для запуска файла можно установить Анаконду.

Сюжетный экспресс

Plotly Express предлагает ряд вариантов визуализации данных. Для этого поста мы будем использовать следующие.

Остальную документацию вы можете найти на веб-сайте Plotly.

Выполнение

Давайте разберем отдельные компоненты файла main.py.

Во-первых, я импортировал все необходимые библиотеки. Затем я читаю файл CSV, используя метод read_csv, также удаляя повторяющиеся записи, изменяя фактические данные. После этого я создал одну круговую и одну гистограмму. Для круговой диаграммы настройка проста. Мне нужно установить несколько параметров для построения круговой диаграммы. Для параметра data_frame я передаю набор данных. Для параметра names я передаю столбец type.

Кроме того, нам также необходимо установить некоторые параметры для гистограммы. Здесь для параметра data_fram я передаю набор данных после создания группы с использованием столбца type (as_index=False означает, что столбец type не будет использоваться в качестве индекса), а с помощью функции agg я выбираю столбец type и выполняю действие count. Наконец, переименуйте выходные данные в столбец count.

Теперь вы можете использовать Dash для публикации наших графиков в Интернете, выполнив следующую команду на локальном компьютере.

python main.py

Развертывать

Я собираюсь развернуть этот проект на Heroku. Для этого нам понадобятся два дополнительных файла. Во-первых, файл requirements.txt, чтобы Heroku мог установить все необходимые библиотеки. Во-вторых, Procfile, чтобы Heroku мог запустить наше приложение. Теперь выполните следующие действия:

  1. Сначала заходим в приборную панель. Затем в правом верхнем углу нажмите кнопку Создать.

2. Теперь дайте ему имя и нажмите кнопку Создать приложение.

3. Теперь он перенаправит вас на вкладку развертывание вашего приложения.

4. Выберите GitHub в качестве метода развертывания и найдите свой репозиторий.

Теперь нажмите кнопку Подключить.

5. Наконец, нажмите кнопку Развернуть ветвь в разделе Развертывание вручную.

Теперь URL будет выглядеть так: имя приложения, за которым следует .herokuapp.com. Итак, в моем случае URL-адрес:

https://dash-panda-python.herokuapp.com/

И это должно выглядеть примерно так:

Вы также можете ознакомиться с официальной документацией для развертывания своего приложения.

Поздравляем! вы успешно развернули свое приложение для визуализации данных на Heroku. Вы можете использовать этот метод для создания портфолио, демонстрируя свои проекты данных. Теперь добавьте различные типы графиков, представляющих разные наборы данных. Удачного кодирования!

Ссылки

kaggle.com. (н.д.). Фильмы и телешоу Netflix. [онлайн] Доступно по адресу: https://www.kaggle.com/shivamb/netflix-shows.

Связанный пост