Получить работу DS непросто, но наличие этих проектов может увеличить ваши шансы.

Получение хорошей работы в области науки о данных может быть довольно сложной и сложной задачей. Хотя наука о данных быстро растет, количество людей, интересующихся этой областью или присоединяющихся к ней по финансовым причинам, растет в геометрической прогрессии.

Итак, несмотря на то, что спрос на хороших специалистов по обработке данных высок, найти работу в качестве специалиста по данным чрезвычайно сложно. Чтобы устроиться на работу, вам нужно будет выделиться среди сотен, если не тысяч других соискателей.

У хорошего специалиста по обработке данных есть много аспектов, некоторые из которых являются техническими, а другие нет. Как специалист по анализу данных, вам необходимо иметь сильное портфолио, которое четко демонстрирует их технические навыки, а также их мягкие навыки. Самое главное, их портфолио должно доказывать, что у них есть ум, жаждущий учиться.



Наука о данных - очень широкая область, общий термин «наука о данных» охватывает многие темы. Он охватывает все подполи машинного обучения, компьютерной версии, искусственного интеллекта и обработки естественного языка.

Несмотря на такое разнообразие тем, чтобы доказать свою ценность как специалиста по данным, вам нужно только продемонстрировать свои способности в основных концепциях науки о данных.

В этой статье обсуждаются 4 типа проектов по науке о данных, которые могут выделить ваше портфолио, укрепить ваши навыки и повысить шансы получить работу своей мечты.



Очистка данных

Как специалист по данным, вы, вероятно, потратите около 80% своего времени на очистку данных. Вы не можете построить эффективную и надежную модель на нечетком и организованном наборе данных.

Когда вы очищаете свои данные, вам могут потребоваться часы за часами исследования, чтобы выяснить назначение каждого столбца в наборе данных. Иногда после нескольких часов - и даже дней - очистки вы обнаруживаете, что анализируемый набор данных не совсем подходит для того, чего вы пытаетесь достичь! Затем вам нужно будет начать процесс заново.

Очистка данных может быть довольно сложной и сложной задачей. Однако это очень важная часть любой работы в области науки о данных, и чтобы сделать ее менее сложной, вам нужно практиковаться.

Существуют наборы данных, которые можно использовать для тренировки очистки данных. Когда вы ищете подходящего кандидата на набор данных для проектов очистки данных, вы должны убедиться, что

  • Набор данных распределен по нескольким файлам.
  • Имейте множество нюансов, нулевых значений и множество возможных подходов к очистке.
  • Для полного понимания требуется хорошее исследование.
  • И самое главное, он должен быть максимально приближен к реальному приложению.

Хорошие наборы данных для очистки - или, как я их называю, очень беспорядочные наборы - часто можно найти на веб-сайтах, которые собирают и объединяют наборы данных. Такие веб-сайты собирают данные из различных источников, не поглощая их. Что делает их отличным кандидатом для проектов по уборке.

Примеры таких сайтов:

  1. Data.world.
  2. Data.gov.
  3. Наборы данных Reddit.

Исследовательский анализ данных

Как только ваши данные будут чистыми и организованными, вам нужно будет выполнить исследовательский анализ данных (EDA). EDA - один из важных шагов в каждом проекте по науке о данных. EDA дает множество преимуществ, например:

  1. Максимальное понимание набора данных.
  2. Выявите основные закономерности и структуру.
  3. Извлеките важную информацию.
  4. Обнаружить аномалии.

Есть много методов, которым мы можем следовать, чтобы выполнить эффективный EDA, большинство из них графические по своей природе. Причина в том, что лучше выявлять закономерности и аномалии в данных, когда они представлены визуально. Конкретные графические методы, используемые в задачах EDA, действительно просты, например:

  1. Построение необработанных данных для получения первоначальной информации.
  2. Построение простых статистических данных по необработанным данным, например графикам среднего и стандартного отклонения.
  3. Сосредоточение анализа на определенных разделах данных для достижения лучших результатов.


Существует множество источников, где вы можете изучить основы EDA и развить интуицию для изучения и финансирования моделей в ваших данных; один из моих любимых курсов по этой теме - курс, который предлагает Университет Джона Хопкинса на Coursera.

Визуализация данных

Когда специалисты по обработке и анализу данных создают какой-либо проект по науке о данных, они часто строят его, чтобы раскрыть секреты и информацию, которые могут помочь улучшить или каким-то образом понять данные.

В большинстве случаев это делается в академической или деловой манере. Один из навыков, который должен развить каждый специалист по данным, - это умение рассказывать убедительную историю с помощью своих данных.

Лучший способ рассказать историю - визуализировать ее.

Существует множество общедоступных наборов данных, которые вы можете использовать для практики визуализации данных, создания информационных панелей и рассказа истории с вашими данными. Некоторые из моих любимых включают: FiveThirtyEight, Google's Dataset Search, Data is Plural, и, конечно же, мы не можем говорить о наборах данных, не упомянув Kaggle.

Чтобы выделиться, нужно уметь рассказывать истории. Ваши данные необходимо эффективно визуализировать. К счастью, есть много ресурсов, где вы можете изучить и попрактиковать свои навыки визуализации данных. Вы можете прочитать статьи о визуализациях или пройти курсы эффективных визуализаций.



Машинное обучение

Одна из вещей, которая может повысить или снизить ваши шансы получить работу в области науки о данных, - это свободное владение машинным обучением. Иногда, когда новички присоединяются к этой области, они, как правило, пропускают основы и сразу переходят к более сложным «модным словечкам» в этой области.

Но,

Прежде чем углубляться в такие сложные темы, необходимо убедиться, что вы заложили прочный фундамент основ машинного обучения. Освоение основ не только укрепит вашу базу навыков, но и даст вам знания, необходимые для более быстрого и легкого освоения любых достижений и новых концепций.

Убедитесь, что у вас есть проекты, которые выходят за рамки всех основ машинного обучения, таких как регрессия (линейная, логистика и т. Д.), Алгоритмы классификации и кластеризация. Некоторые из моих любимых источников по основам машинного обучения - это глава по основам машинного обучения в The Deep Learning Book и курс машинного обучения CodeAcademy.

Вот несколько простых, но эффективных идей для проектов машинного обучения:

  1. Прогнозирование ссуды с использованием набора данных прогноза.
  2. Прогноз цен на жилье с использованием набора данных прогнозирования цен на жилье.
  3. Классификация музыкальных жанров.
  4. Прогнозирование личности с использованием набора данных прогнозирования личности.
  5. Распознавание рукописных символов.
  6. Речь в текст или наоборот.


Выводы

Получить хорошую работу в области науки о данных может быть довольно сложно из-за огромного пула соискателей и людей, заинтересованных в этой области. Чтобы выделиться среди других, ваше портфолио должно доказать, что у вас есть прочный фундамент базовых концепций науки о данных.

Прочная основа означает, что вы сможете легко изучать, внедрять и адаптироваться к новым моделям и алгоритмам. В этой статье описаны 4 типа проектов по науке о данных, которые могут помочь увеличить ваши шансы получить работу своей мечты. Вот эти 4 типа проектов:

  1. Проекты очистки данных.
  2. Проекты исследовательского анализа данных.
  3. Проекты визуализации данных (желательно интерактивные).
  4. Проекты машинного обучения (кластеризация, классификация и NLP).

Наличие этих проектов докажет, что у вас есть прочный фундамент в области науки о данных. Однако наличия этих проектов недостаточно, чтобы получить работу; вам также необходимо поработать над своими мягкими навыками, такими как общение, рассказывание историй и понимание базовой бизнес-модели. А также у вас есть несколько продвинутых проектов, которые показывают степень ваших знаний.