Data Scientist («Самая сексуальная профессия 21 века») – это профессия, за которой гонятся многие люди с разным уровнем образования (в основном они делятся на инженеров и не инженеров).

Все они одинаково сомневаются, МАТЕМАТИКА ДЕЙСТВИТЕЛЬНО ВАЖНА, ЧТОБЫ СТАТЬ УЧЕНЫМ ПО ДАННЫМ? Если да, то какие темы имеют решающее значение для изучения и где я могу найти ресурсы для их изучения?

Эта статья в первую очередь предназначена для тех из вас, кто не знает, нужно ли изучать математику и сколько нужно учиться, чтобы стать специалистом по данным. Я также включил несколько ресурсов, из которых вы можете изучить необходимые темы.

ПОЧЕМУ МАТЕМАТИКА ВАЖНА ДЛЯ ДАННЫХ?

Прежде чем мы углубимся в то, какие математические темы важны для того, чтобы стать специалистом по данным, давайте поймем важность математики в DS.

Наука о данных с точки зрения непрофессионала — это область, которая извлекает идеи и информацию из структурированных или неструктурированных данных. Полученная информация позже используется либо для стимулирования бизнеса, либо для определения того, почему продукт не пользуется успехом на рынке, для прогнозирования продаж на следующий месяц и т. д. Варианты использования науки о данных неопределенны, для получения достоверного результата крайне важно точно извлекать информацию из данных. Для этого исследователи данных используют различные алгоритмы (широко известные как алгоритмы машинного обучения), такие как регрессия, SVM, случайный лес и многие другие. Иногда они даже используют нейронные сети (глубокое обучение) для получения точных результатов. Эти алгоритмы основаны на четырех математических разделах: СТАТИСТИКА, ЛИНЕЙНАЯ АЛГЕБРА, ВЫЧИСЛЕНИЕ и ВЕРОЯТНОСТЬ.

Чтобы получить правильную информацию из данных, важно понимать, как работают разные алгоритмы (т. е. как изменение данных влияет на изменение вывода), и для этого крайне важно изучить вышеупомянутые темы.

Если вы не имеете математического образования, вам не нужно бояться этих тем. Как только вы начнете их изучать, вы поймете, что они довольно простые и интересные. Чтобы продвигаться вперед на пути к DS, вам необходимо усвоить основные принципы. После того, как вы поймете математику, кодирование станет очень простым. КОДИРОВАНИЕ БУДЕТ ЛЕГКО, ЕСЛИ ВЫ ПОНИМАЕТЕ МАТЕМАТИКА, СТОЯЩИЕ ЗА АЛГОРИТМОМ.

Я лично видел, как многие студенты игнорируют математическую часть DS и переходят сразу к построению моделей. Обычно это приводит к тому, что они разрабатывают неэффективные модели, потому что не понимают, как на самом деле работает модель и какой тип данных даст лучшие результаты.

Вам не нужно быть профессионалом в математике, чтобы стать хорошим Data Scientist, все, что вам нужно, — это базовое понимание нескольких основных тем.

КАКИЕ ТЕМЫ ИЗУЧАТЬ?

Теперь, когда мы знаем роль математики в DS, давайте узнаем, какие темы мы должны изучать.

Как я уже упоминал ранее, есть 4 темы, которые необходимо изучить. Я объяснил их вкратце, чтобы вы получили общее представление о том, как они используются в DS.

  1. СТАТИСТИКА

Он занимается сбором, анализом и представлением данных. Статистика является краеугольным камнем DS. Большая часть реальных данных неструктурирована и должна быть очищена перед вводом их в модель. Статистика полезна всякий раз, когда мы имеем дело с неструктурированными данными, поскольку она помогает нам идентифицировать выбросы (это точки данных, заметно из другого набора данных), обрабатывать пропущенные значения, понимать распределение данных, определять корреляцию между функциями.

Исследователи данных используют информационные панели, диаграммы и графики для визуализации данных и используют статистические формулы и концепции для получения информации из этих визуальных элементов. Короче говоря, статистика используется для визуализации данных, интерпретации распределения данных и очистки данных.

2. ЛИНЕЙНАЯ АЛГЕБРА

Линейная алгебра имеет дело с линейными уравнениями, матрицами и векторными пространствами. Он действует как основополагающий блок в алгоритмах машинного обучения. Понимание линейной алгебры заставит вас рассматривать алгоритмы машинного обучения не как черный ящик. Это позволит вам узнать, как модель изучает закономерности из данных, и эти знания помогут вам выбрать лучшие гиперпараметры и разработать надежные модели.

Линейная алгебра обычно используется в:

Функции потерь – сообщает, насколько ваши прогнозируемые значения отличаются от фактических значений.

Регуляризация. Методы регуляризации (такие как нормы L1 и L2) предотвращают переподгонку моделей.

Ковариационная матрица. Они используются для понимания взаимосвязи между двумя атрибутами/признаками (непрерывными по своей природе).

Уменьшение размерности. При работе с большими данными (такими как изображения, видео), которые содержат огромное количество матриц, их обработка может быть утомительным процессом (даже для суперкомпьютеров). В таких случаях исходные данные сводится к меньшему подмножеству.

PCA (анализ основных компонентов) — это распространенный метод уменьшения размеров набора данных. Он использует концепции линейной алгебры, такие как собственные векторы и значения, для сокращения данных.

NLP (обработка естественного языка). Оно занимается обработкой человеческого языка (что означает, что оно работает со словами, а не числовыми данными). Как вы знаете, алгоритмы нуждаются в числовых данных в качестве входных данных. Встраивание слов — это распространенный метод, используемый для преобразования слов в числовые данные. Он представляет слова как малоразмерные векторы и пытается сохранить их контекст в документе. Он использует концепцию матриц и векторов.

Компьютерное зрение (CV). Обработка изображений и видео. Для обработки изображений они представляются в виде 2D-матриц. Над изображениями выполняются многие операции, такие как свертка (это просто поэлементное умножение двух матриц с последующей их суммой), которая используется для обнаружения краев, повышения резкости изображения, масштабирования изображения (масштабирование серого) и многое другое.

3. ВЕРОЯТНОСТЬ

Вероятность можно определить как вероятность наступления события.

Знаменитая теорема Байеса использует условную вероятность (вероятность возникновения события относительно одного или нескольких других событий). Эта концепция широко используется в машинном обучении для классификации, оптимизации и гипотезы модели. Алгоритм наивного Байеса построен с использованием теоремы Байеса.

Вероятность используется при обучении (оценка максимального правдоподобия, максимальная апостериорная оценка), настройке, оценке (перекрестной энтропии) моделей.

4. ИСЧИСЛЕНИЕ

Исчисление простыми словами означает изучение скорости изменения величин. В алгоритмах ML мы используем функцию потерь, которая говорит нам, насколько эффективна наша модель. Чтобы оптимизировать нашу модель, мы используем градиентный спуск (градиент измеряет, насколько сильно изменится результат, если вы немного измените входные данные), который использует исчисление для изменения параметров (весов и смещений) модели, чтобы повысить ее точность и сделать он прочный.

РЕСУРСЫ ДЛЯ ИЗУЧЕНИЯ ЭТИХ ТЕМ

Зная, что нам нужно изучать, я включил несколько ресурсов, которые помогли мне понять эти темы.

СТАТИСТИКА

  1. https://youtu.be/Vfo5le26IhY - (охватывает основные понятия статистики)
  2. Думайте о статистике: вероятность и статистика для программистов Аллена Б. Дауни (в этой книге даже описано, как реализовать концепцию статистики с помощью кода (Python))

ВЕРОЯТНОСТЬ

  1. https://www.analyticsvidhya.com/blog/2021/04/statistics-and-probability-concepts-for-data-science/ (Эта статья даст вам базовый обзор тем, которые вы должны изучить в области вероятностей )
  2. https://youtu.be/sEte4hXEgJ8

ИСЧИСЛЕНИЕ

  1. https://youtu.be/WUvTyaaNkzM (Обязательно посмотрите весь плейлист по исчислению от 3Blue1Brown, он объяснил исчисление самым простым и интересным способом!)

ЛИНЕЙНАЯ АЛГЕБРА

  1. MIT 18.065 Матричные методы в анализе данных, обработке сигналов и машинном обучении, весна 2018 г.

Эти ресурсы охватывают основы каждой темы, с этими знаниями вы можете начать создавать и оптимизировать модели, а затем постепенно изучать более сложные концепции.

Это все, что я хотел сказать в этой статье. Спасибо, читатели, за ваше драгоценное время!

Не забудьте поставить лайк👏, если эта статья вам чем-то помогла. Это мотивирует меня писать больше статей и стараться изо всех сил способствовать росту нашего сообщества специалистов по данным :)