Основываясь на своем опыте в профессиональной области науки о данных и моей академической квалификации в области бизнес-аналитики, я хотел бы поделиться тем, что я узнал о профессии, и пролить свет на тех, кто заинтересован в присоединении к этой области. Я пишу эту статью с точки зрения науки о данных, применяемой в бизнесе.

Что такое наука о данных?

Наука о данных — это способность принимать осмысленные решения на основе данных с использованием вычислительного анализа. В науке о данных мы имеем дело с различными типами анализа:

  • Описательный:отчетность «как есть» и прошлых ситуаций, например. полученный доход, количество пользователей и т. д.
  • Прогностический. Это футуристический анализ, например. через x месяцев сколько еще людей, как ожидается, запишется на данную программу?
  • Причинно-следственная связь: это причинно-следственный анализ, например. Приводит ли изменение одной функции к повышению вовлеченности клиентов?

Что такое бизнес-аналитика?
Это наука о данных для бизнеса. Есть три ключевых фактора принятия решений, которые влияют на бизнес-аналитику: увеличение доходов, снижение затрат и оптимизация процессов/впечатлений.

Почему важна наука о данных?
В связи с увеличением объема данных, собираемых сегодня в мире, возникает необходимость в быстром и точном анализе этой информации. Цель науки о данных — создавать идеи, которые способствуют принятию решений. В этом также заключается интересная часть дисциплины — выработка рекомендаций на основе данных и анализа.

(Забавный факт: по данным IDC, в 2020 г. было создано или реплицировано 64,2 зеттабайта — 64 200 000 000 000 000 000 000 байт данных, и, по прогнозам, совокупный совокупный темп роста (CAGR) составит 23 % в период с 2020 по 2025 год.

Так что же нужно, чтобы стать Data Scientist?

SQL

  • Это основной язык сценариев для баз данных. Может быть сюрпризом, что это старый язык, но все базы данных полагаются на этот язык. База данных — это семейство таблиц и их взаимосвязей. Думайте о базе данных как о хранилище данных в системе. Настоятельно рекомендуется изучить SQL, чтобы иметь возможность создавать, изменять (обновлять) и запрашивать (искать) базы данных для получения информации, которую вы ищете. Вы увидите стандартную нотацию SQL:
    SELECT * FROM table_name WHERE условие;
    Если вы видите это, вы находитесь в домене SQL, и существует так много производных, тесно связанных с SQL, таких как: MySQL, Spark, Hive и т. д.
  • Понимание того, как объединять разные таблицы с помощью SQL, очень важно и основано на концепциях LEFT JOIN, RIGHT JOIN, INNER JOIN, OUTER JOIN и SELF JOIN. Эта часть SQL должна напоминать о теории множеств (множество пересечений, дополнение, объединение и т. д.).
  • Запрос данных позволяет Data Scientist извлекать соответствующую информацию из базы данных/хранилища данных, чтобы иметь возможность применять к ней аналитические методы.

Excel:

  • Excel — удобный инструмент для анализа данных. Преимущество Excel заключается в том, что многочисленные ячейки/точки данных взаимодействуют друг с другом, облегчая вычисления. Мир финансов в значительной степени полагается на Excel из-за его замечательных функций, таких как NPV, PV, которые помогают в создании моделей DCF, чтобы определить, стоит ли вложение того или нет.
  • Excel — хороший инструмент, который нужно иметь под рукой, потому что вы можете использовать его для более простого анализа и относительно небольших объемов данных.
  • Одним из его ограничений является невозможность работы с большими данными и автоматизацией, особенно с данными из разных источников. Имейте в виду, что у Excel есть свой способ автоматизации, и он относится к языку под названием VBA (Visual Basic для приложений). Так что да, вы можете писать код, циклы for и автоматизировать процессы в Excel. В зависимости от имеющихся у вас данных и количества источников автоматизацию процессов можно упростить с помощью расширенных языков сценариев, некоторые из которых мы рассмотрим ниже.

Питон:

  • Сегодня это один из самых популярных языков Data Science. Прелесть Python заключается в том, что вы можете легко манипулировать данными, применять аналитические алгоритмы и автоматизировать конвейер, чтобы обеспечить независимость процесса.
  • Python хорош для прогнозного моделирования, потому что он имеет бесплатные и легкодоступные библиотеки, такие как Scikit Learn, Pandas, Numpy и другие библиотеки машинного обучения, которые облегчают работу по созданию прогнозной или классификационной модели.
  • Python отлично подходит для создания алгоритмов, которые могут непрерывно анализировать данные из нескольких источников.
  • Python используется с интерфейсами прикладного программирования (API) из-за его способности работать со списками, словарями и другими структурами данных.
  • Несмотря ни на что, изучайте Python!

R

  • R — это язык чисел. Как и Python, он включает в себя сценарии и является собственным языком программирования. Однако в R гораздо более простые функции (например, sapply, lapply) и библиотеки (например, dplyr, tidyverse) для работы с большими наборами данных.
  • R имеет другой синтаксис, для ознакомления с которым требуется больше практики. Если вы знаете Python, вам будет намного легче понять R. Однако не стоит его недооценивать.
  • Одной из самых сильных сторон R является статистический анализ и визуализация. Статистические пакеты в R проще реализовать, например. запустить регрессию и т.д.

Статистика и вероятность:

  • Статистика и вероятность вступают в игру, чтобы помочь Data Scientist сделать точные выводы из данных.
  • Статистика специально наблюдает за тем, что уже произошло, и пытается принимать обоснованные решения на основе выводов. С другой стороны, вероятность вводит понятие случайности или вероятности возникновения. Сочетание этих двух факторов позволяет Data Scientist делать выводы/прогнозы на основе заданных данных с определенной степенью уверенности при учете возможных ошибок. Вот почему вы много слышите о выбросах, показателях точности и т. д.
  • A/B-тесты, регрессия и другие аналитические методы полагаются на статистику и вероятность для принятия решений.

Облако: Hadoop/GCP/Hive/AWS

  • На этом этапе мы начинаем погружаться в пул «больших данных». Большие данные — это именно то, на что это похоже, подумайте о больших таблицах, широких и длинных, с большим количеством источников. Мы могли бы говорить о сотнях столбцов и миллионах строк в таблице. Большие данные — это возможность использовать большую вычислительную мощность для получения информации из больших объемов данных.
  • В настоящее время существуют различные платформы для работы с большими данными, включая Hadoop, GCP, Hive, AWS, Snowflake, IBM Cloud Pak, 1010Data и другие.
  • Большие данные выходят за рамки анализа и разветвляются на оптимизацию (обмен данными), которая относится к Apache Spark, Cassandra, Kubernetes, Docker и т. д.

Командная строка

  • Изучение командной строки всегда полезно, поскольку передача данных происходит через компьютерные терминалы, которые используют командную строку для связи. Командная строка работает с командами Linux, такими как ls, cat, pwd и т. д.

Более продвинутый анализ: искусственный интеллект и глубокое обучение

  • Будущее науки о данных будет постоянно развиваться в сторону более быстрого анализа с помощью инструментов, которые легко использовать любому для извлечения разумной информации.
  • Искусственный интеллект, машинное обучение и глубокое обучение — это области, которые сегодня продвигают инновации в науке о данных.
  • Важно углубиться в искусственный интеллект и глубокое обучение, чтобы понять будущее науки о данных. Однако, чтобы понять их лучше, не забудьте освежить и понять основы, такие как статистика, вероятность, линейная алгебра, исчисление, дискретная математика и логика. Это определенно помогает понять некоторые основные языки программирования, такие как Python и SQL.

Обзор:

Я надеюсь, что эта статья поможет всем, кто интересуется наукой о данных, найти нужные ресурсы и улучшить свои навыки для применения в реальных проектах, исследованиях или бизнес-аналитике.