Быстрое погружение в реальное машинное обучение с Kaggle Learn

Почти каждый энтузиаст машинного обучения или человек из сообщества Datascience наверняка знает о Kaggle. Kaggle - это не только дом для этих микрокурсов, он также является домом для соревнований по науке о данных, наборов данных с открытым исходным кодом, форумов сообщества и блогов. Соревнования Kaggle - это не просто так просто, но они дадут вам реальный взгляд на проблемы науки о данных.

Итак, как быстро ты сможешь принять участие в этих соревнованиях. Все дело в том, чтобы зарегистрироваться в kaggle, который дает вам доступ к микрокурсам kaggle. Самое лучшее в них то, что они абсолютно бесплатны, и вы также получите сертификат о прохождении от kaggle. Как следует из названия, они имеют микроразмер. Каждый курс займет примерно несколько дней или, возможно, неделю. Эти курсы актуальны для отрасли, они короткие и приятные. Вы не можете ожидать от этих курсов всех теоретических определений, основы и знаний, поскольку они сосредоточены на практических подходах. Но большую часть вы получите.

Микрокурсы Kaggle

Микрокурсы Kaggle варьируются от базового питона до машинного обучения, НЛП, визуализации данных, панд, геопространственного анализа, обучения с подкреплением и т.д. Таких курсов 16, и каждый состоит из нескольких модулей с обучающими и практическими частями, и вам необходимо пройти практические части, чтобы разблокировать сертификат. Вы можете выполнять задания в удобном для вас темпе. и эти упражнения размещены на ядрах kaggle.

Предлагаемый порядок прохождения этих курсов

Предложение полностью мое, и я прошел все курсы, поэтому оно полностью основано на моем опыте.

Я бы посоветовал вам проходить курсы в следующем порядке:

  1. Python
  2. Панды
  3. Геопространственный анализ
  4. Визуализация данных
  5. Введение в SQL
  6. Введение в машинное обучение
  7. Машинное обучение среднего уровня
  8. Функциональная инженерия
  9. Продвинутый SQL
  10. Глубокое обучение
  11. Обработка естественного языка

как я уже говорил ранее, это исключительно мой опыт, и вы можете пройти столько курсов, сколько захотите, и в любом порядке.

Поскольку Python является наиболее часто используемым языком для машинного обучения и науки о данных из-за его простого и простого синтаксиса Python и огромного процветающего сообщества по всему миру, если вы новичок в мире науки о данных, kaggle поможет вам. В этом микрокурсе вы познакомитесь с базовым синтаксисом Python и начнете с Hello World! (Программистская традиция). Затем вы узнаете о столь необходимых функциях, условных операторах, циклах и многом другом.

pandas - это быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом, созданный на основе языка программирования Python. Вы бы часто использовали панд в машинном обучении. Он используется для обработки и анализа данных. Это лучшее, что нужно знать из-за его простых в использовании встроенных функций и способности обрабатывать большие данные. В микрокурсе pandas вы узнаете о создании, чтении и записи данных. Индексирование, выбор, группировка, сортировка, а также обработка пропущенных значений.

Этот курс не является обязательным для машинного обучения, но этот микрокурс поможет вам создавать карты и взаимодействовать с ними. с этим вы можете применять машинное обучение в реальных приложениях, таких как карты. И, кстати, это крутой микрокурс, и во всех них я мой самый любимый. В этом микрокурсе они используют пакет folium python, а также вы можете управлять геопространственными данными, создавать кластеры, тепловые карты и многое другое.

Визуализация данных - это графическое представление данных. Он включает в себя создание изображений, которые передают отношения между представленными данными зрителям изображений. Часто вам нужно работать с большими данными, и получить представление о данных в необработанном виде сложно. Затем в игру вступает визуализация данных, которая помогает нам понять данные. В этом микрокурсе вы будете использовать пакеты python seaborn и matplotlib. есть еще несколько вариантов, но они более популярны и эффективны.

SQL означает язык структурированных запросов. SQL используется для связи с базой данных. Решая проблемы машинного обучения, вы часто работаете с большими наборами данных. поэтому вам нужно работать над этим, манипулировать данными и извлекать данные. Существуют разные типы систем баз данных, и в этом конкретном микрокурсе вы будете работать с BigQuery. Вы изучите основные функции, такие как SELECT, WHERE, GROUP и т. Д., А также остальные сложные темы, которые вы изучите в Advanced SQL.

Теперь перейдем к основной части - машинному обучению. Проще говоря, машинное обучение - это то, что вы заставляете компьютер делать прогнозы на основе прошлых примеров. и определение вики: «Машинное обучение - это приложение искусственного интеллекта (ИИ), которое предоставляет системам возможность автоматически учиться и улучшать на основе опыта без явного программирования. Машинное обучение ориентировано на разработку компьютерных программ, которые могут получать доступ к данным и использовать их для самостоятельного обучения ».

В этом конкретном микрокурсе вы познакомитесь с машинным обучением, недостаточной подгонкой, переобучением и несколькими моделями машинного обучения, такими как случайные леса, автоматическое машинное обучение и т. Д. Но, чтобы напомнить вам, это очень простой, но очень хороший старт для вас DataScience / ML путешествие !!

Так выглядят сертификаты микрокурсов kaggle

Есть несколько других микрокурсов, и каждый из них определенно принесет вам пользу, их стоит пройти, и они бесплатны !!

Всего наилучшего в карьере !!

Продолжайте учиться !!