Инструменты для Data Scientist

Основываясь на своем опыте в профессиональной области науки о данных и моей академической квалификации в области бизнес-аналитики, я хотел бы поделиться тем, что я узнал о профессии, и пролить свет на тех, кто заинтересован в присоединении к этой области. Я пишу эту статью с точки зрения науки о данных, применяемой в бизнесе.

Что такое наука о данных?

Наука о данных — это способность принимать осмысленные решения на основе данных с использованием вычислительного анализа. В науке о данных мы имеем дело с различными типами анализа:

Описательный:отчетность «как есть» и прошлых ситуаций, например. полученный доход, количество пользователей и т. д.
Прогностический. Это футуристический анализ, например. через x месяцев сколько еще людей, как ожидается, запишется на данную программу?
Причинно-следственная связь: это причинно-следственный анализ, например. Приводит ли изменение одной функции к повышению вовлеченности клиентов?

Что такое бизнес-аналитика?
Это наука о данных для бизнеса. Есть три ключевых фактора принятия решений, которые влияют на бизнес-аналитику: увеличение доходов, снижение затрат и оптимизация процессов/впечатлений.

Почему важна наука о данных?
В связи с увеличением объема данных, собираемых сегодня в мире, возникает необходимость в быстром и точном анализе этой информации. Цель науки о данных — создавать идеи, которые способствуют принятию решений. В этом также заключается интересная часть дисциплины — выработка рекомендаций на основе данных и анализа.

(Забавный факт: по данным IDC, в 2020 г. было создано или реплицировано 64,2 зеттабайта — 64 200 000 000 000 000 000 000 байт данных, и, по прогнозам, совокупный совокупный темп роста (CAGR) составит 23 % в период с 2020 по 2025 год.

Так что же нужно, чтобы стать Data Scientist?

SQL

Это основной язык сценариев для баз данных. Может быть сюрпризом, что это старый язык, но все базы данных полагаются на этот язык. База данных — это семейство таблиц и их взаимосвязей. Думайте о базе данных как о хранилище данных в системе. Настоятельно рекомендуется изучить SQL, чтобы иметь возможность создавать, изменять (обновлять) и запрашивать (искать) базы данных для получения информации, которую вы ищете. Вы увидите стандартную нотацию SQL:
SELECT * FROM table_name WHERE условие;
Если вы видите это, вы находитесь в домене SQL, и существует так много производных, тесно связанных с SQL, таких как: MySQL, Spark, Hive и т. д.
Понимание того, как объединять разные таблицы с помощью SQL, очень важно и основано на концепциях LEFT JOIN, RIGHT JOIN, INNER JOIN, OUTER JOIN и SELF JOIN. Эта часть SQL должна напоминать о теории множеств (множество пересечений, дополнение, объединение и т. д.).
Запрос данных позволяет Data Scientist извлекать соответствующую информацию из базы данных/хранилища данных, чтобы иметь возможность применять к ней аналитические методы.

Excel:

Excel — удобный инструмент для анализа данных. Преимущество Excel заключается в том, что многочисленные ячейки/точки данных взаимодействуют друг с другом, облегчая вычисления. Мир финансов в значительной степени полагается на Excel из-за его замечательных функций, таких как NPV, PV, которые помогают в создании моделей DCF, чтобы определить, стоит ли вложение того или нет.
Excel — хороший инструмент, который нужно иметь под рукой, потому что вы можете использовать его для более простого анализа и относительно небольших объемов данных.
Одним из его ограничений является невозможность работы с большими данными и автоматизацией, особенно с данными из разных источников. Имейте в виду, что у Excel есть свой способ автоматизации, и он относится к языку под названием VBA (Visual Basic для приложений). Так что да, вы можете писать код, циклы for и автоматизировать процессы в Excel. В зависимости от имеющихся у вас данных и количества источников автоматизацию процессов можно упростить с помощью расширенных языков сценариев, некоторые из которых мы рассмотрим ниже.

Питон:

Сегодня это один из самых популярных языков Data Science. Прелесть Python заключается в том, что вы можете легко манипулировать данными, применять аналитические алгоритмы и автоматизировать конвейер, чтобы обеспечить независимость процесса.
Python хорош для прогнозного моделирования, потому что он имеет бесплатные и легкодоступные библиотеки, такие как Scikit Learn, Pandas, Numpy и другие библиотеки машинного обучения, которые облегчают работу по созданию прогнозной или классификационной модели.
Python отлично подходит для создания алгоритмов, которые могут непрерывно анализировать данные из нескольких источников.
Python используется с интерфейсами прикладного программирования (API) из-за его способности работать со списками, словарями и другими структурами данных.
Несмотря ни на что, изучайте Python!

R — это язык чисел. Как и Python, он включает в себя сценарии и является собственным языком программирования. Однако в R гораздо более простые функции (например, sapply, lapply) и библиотеки (например, dplyr, tidyverse) для работы с большими наборами данных.
R имеет другой синтаксис, для ознакомления с которым требуется больше практики. Если вы знаете Python, вам будет намного легче понять R. Однако не стоит его недооценивать.
Одной из самых сильных сторон R является статистический анализ и визуализация. Статистические пакеты в R проще реализовать, например. запустить регрессию и т.д.

Статистика и вероятность:

Статистика и вероятность вступают в игру, чтобы помочь Data Scientist сделать точные выводы из данных.
Статистика специально наблюдает за тем, что уже произошло, и пытается принимать обоснованные решения на основе выводов. С другой стороны, вероятность вводит понятие случайности или вероятности возникновения. Сочетание этих двух факторов позволяет Data Scientist делать выводы/прогнозы на основе заданных данных с определенной степенью уверенности при учете возможных ошибок. Вот почему вы много слышите о выбросах, показателях точности и т. д.
A/B-тесты, регрессия и другие аналитические методы полагаются на статистику и вероятность для принятия решений.

Облако: Hadoop/GCP/Hive/AWS

На этом этапе мы начинаем погружаться в пул «больших данных». Большие данные — это именно то, на что это похоже, подумайте о больших таблицах, широких и длинных, с большим количеством источников. Мы могли бы говорить о сотнях столбцов и миллионах строк в таблице. Большие данные — это возможность использовать большую вычислительную мощность для получения информации из больших объемов данных.
В настоящее время существуют различные платформы для работы с большими данными, включая Hadoop, GCP, Hive, AWS, Snowflake, IBM Cloud Pak, 1010Data и другие.
Большие данные выходят за рамки анализа и разветвляются на оптимизацию (обмен данными), которая относится к Apache Spark, Cassandra, Kubernetes, Docker и т. д.

Командная строка

Изучение командной строки всегда полезно, поскольку передача данных происходит через компьютерные терминалы, которые используют командную строку для связи. Командная строка работает с командами Linux, такими как ls, cat, pwd и т. д.

Более продвинутый анализ: искусственный интеллект и глубокое обучение

Будущее науки о данных будет постоянно развиваться в сторону более быстрого анализа с помощью инструментов, которые легко использовать любому для извлечения разумной информации.
Искусственный интеллект, машинное обучение и глубокое обучение — это области, которые сегодня продвигают инновации в науке о данных.
Важно углубиться в искусственный интеллект и глубокое обучение, чтобы понять будущее науки о данных. Однако, чтобы понять их лучше, не забудьте освежить и понять основы, такие как статистика, вероятность, линейная алгебра, исчисление, дискретная математика и логика. Это определенно помогает понять некоторые основные языки программирования, такие как Python и SQL.

Обзор:

Я надеюсь, что эта статья поможет всем, кто интересуется наукой о данных, найти нужные ресурсы и улучшить свои навыки для применения в реальных проектах, исследованиях или бизнес-аналитике.

Инструменты для Data Scientist

Что такое наука о данных?

Так что же нужно, чтобы стать Data Scientist?

Вопросы по теме