Практический первый шаг в проекте по науке о данных

Занятия по статистике и науке о данных мало помогают студентам подготовиться к составлению проектных спецификаций на работе. Вот несколько проблем:

  • Они учат вас воспринимать постановку проблемы как должное, но что, если у вашего начальника нет навыков, чтобы делать разумные запросы?
  • Они не учат вас бюджетированию денег и данных, поэтому вы узнаете, как рассчитать идеальные требования к данным, но не думаете о затратах и ​​​​выгодах, которые вам понадобятся для поиска практического подхода в бизнес-среде.
  • Они не учат вас навыкам ведения переговоров, особенно гибкости, которая помогает вам ориентироваться в серых зонах переговоров о работоспособном бюджете для сбора данных.
  • Скорее всего, они будут ориентированы на настройки унаследованные данные, а не на первичные данные, так как вашему специалисту будет проще их оценить.
  • Они упускают из виду детали реального мира.

Первый рабочий день специалиста по данным

Представьте, что вы ученый данных, которого наняли для оценки средней высоты сосен в лесу, изображенном ниже.

(Примечание: ссылки в этой статье ведут к моим беззаботным объяснениям любых жаргонных терминов, которые возникают.)

Факты против статистики

Если бы мы точно измерили каждое отдельное дерево, мы бы получили нечто гораздо лучшее, чем оценка; мы получили бы факт. Актуальная правда о высоте деревьев в этом лесу. Когда у вас есть факты, вам не нужна статистика.

Когда у вас есть факты, вам не нужна статистика.

Должны ли вы тогда пойти и измерить планковскую длину каждого дерева (наименьшая единица длины в физике, где одна единица равна 0,0000000000000000000000000000000000001616255 метров)? Какой прибор вы бы использовали для получения таких точных измерений? Бьюсь об заклад, он не завалялся у вас в гараже, тем более, что его еще не изобрели.

Даже если бы мы остановились на самом точном измерительном приборе человечества (на порядки слишком неточны, если ваше сердце настроено на планковскую длину), одно дерево, измеренное с его помощью, вероятно, было бы слишком дорогим для любой цели, побудившей вашего босса нанять вас.

Кроме того, даже если вы остановились на длине доски вместо длины планка и позволили себе округлить до ближайшего метра, измерение каждогодерева было бы излишним… ваш лес слишком велик. Одобрит ли ваш начальник ваше желание собрать все подряд?

Статистическая выборка — это получение точки зрения на вашу проблему, которая менее совершенна, чем факт, но достаточно хороша.

Если вы думаете как хороший статистик, вы невосприимчивы к импульсу перфекционизма — зачем измерять всю популяцию, когда вы можете получить достаточно хорошую оценку, взяв выборку. »? Конечно, это вносит неопределенность (мы больше не имеем дело с фактами), но, возможно, с этим можно жить. Давайте измерим достаточно хорошую выборку деревьев, чтобы нам не нужно было измерять их все!

Но подождите… что такое «достаточно хорошо»?

Мы даже не приблизились к дереву, а уже сталкиваемся с двумя препятствиями в нашей, казалось бы, простой задаче измерения дерева:

  • Если мы не измеряем планковскую длину, насколько точным должно быть измерение?
  • Если мы измеряем не все деревья, сколько деревьев мы должны измерить?

Чтобы ответить на оба этих вопроса, нужно сначала понять, почемуваш проект существует: какова цель задачи и что делает достаточно хорошим. на самом деле означает? Это вопрос соотношения затрат и выгод, на который вы не сможете ответить, не понимая реальных аспектов проекта.

Начните с того, почему: почему вы собираете данные? Какова цель вашего проекта? Что на самом деле означает «достаточно хорошо»?

К сожалению, если вы новичок в своей команде, установка планки «достаточно хорошо» — это, строго говоря, чья-то чужая работа. Этим кем-то обычно является Босс. Если *вы* не босс, это не ваше дело. Если вы относитесь к реальным проблемам с данными как к домашним заданиям, это будет для вас проблемой.

Уроки статистики не учат вас обращаться с деньгами

Первая проблема заключается в том, что аудиторные курсы для специалистов по науке о данных редко касаются вопросов бюджетирования данных. Большинство домашних заданий требуют, чтобы вы принимали размер выборки как должное, настраивая свой мозг на работу с унаследованными данными, но ничего не делая для того, чтобы вести переговоры по сбору данных в реальном мире.

Перестаньте относиться к данным как к бесценным. Данные не священны; это такой же ресурс, как и любой другой.

Другие домашние задания научат вас вычислять необходимый вам размер выборки, даже не подготавливая вас к следующему шагу: как собрать деньги, которые вам понадобятся, чтобы действительно получить этот идеальный размер выборки. (Не говоря уже об этикете объяснения бюджетной кривой анализа мощности боссу с аллергией на числа.) Одно из самых драчливых проявлений этой образовательной оплошности — привычка относиться к данным как к бесценным, что приводит к странному поведению, которое выглядит чертовски инфантильным для каждый второй взрослый в вашей команде. В реальном мире дефицит, а хорошие вещи стоят денег. Это относится и к данным. Данные не священны; это такой же ресурс, как и любой другой.

Понимают ли начальники, о чем они просят?

Вторая проблема — уровень квалификации вашего начальника. Если вы берете на себя ответственность за ситуацию (вы ведете себя!) и выполняете работу, не тратя время на то, чтобы полностью понять точку зрения вашего босса, вы рискуете найти решение, которое не соответствует проблеме.

С другой стороны, если вы обратитесь к своему боссу с просьбой об измерении и характеристиках размера выборки, ну, здесь тоже будут драконы.

Предположим, ваш начальник отвечает:"Двадцать деревьев в футах, пожалуйста".

Требуется навык, чтобы преобразовать видение проекта в требования размера выборки, и пока вы не узнаете уровень навыков принятия решений вашего босса, трудно судить, является ли их ответ обдуманным или ленивым. Это может быть именно то, что вам нужно для продвижения вперед, но если ваш начальник не имеет опыта работы с данными и измерениями, их импровизированный ответ может ударить проект по ноге. Есть большая вероятность, что они отправят вас в погоню за дикими гусями.

Пока вы не поработаете в тесном контакте со своим боссом, вы не узнаете.

Предположения, предположения, предположения

Как только вы столкнетесь с неопределенностью, вам понадобится мост между фактами, которые у вас есть (ваша выборка из нескольких деревьев), и фактами, которые вы хотели бы иметь (ваша популяция всех деревьев в лесу). Этот мост — предположения. Предположения — это то, что делает статистический проект успешным.

ДАННЫЕ + ПРЕДПОЛОЖЕНИЯ = ВЫВОД

Сложность в том, что ваш босс — не вы! — тот, кто отвечает за постановку предположений проекта. Если вы не принимаете решения, то ваша работа состоит в том, чтобы служить переводчиком между математикой и тем, что в голове у вашего босса. Это еще один навык, который они редко освещают в классе.



Выход из реального мира

Я расскажу об этом в следующей статье, но вкратце: школа упускает из виду большую часть реальных деталей. Как и этот абзац.

Настоящий первый шаг в проекте данных

Ученые, принимающие решения и более опытные специалисты по данным начинают каждый проект с тщательного опроса босса, чтобы убедиться, что спецификации запроса на сбор данных ясны и соответствуют видению босса в отношении проекта, при этом соблюдая баланс затрат и выгод. процесса сбора данных. Увы, это набор навыков, который вы вряд ли приобретете в классе. Без этого есть большая вероятность, что вы либо узурпируете роль босса, либо запаникуете и сделаете именно то, что говорит босс. Оба плохие!

Если вы неопытный специалист по работе с данными, есть большая вероятность, что вы либо узурпируете роль босса, либо запаникуете и сделаете именно то, что босс говорит. Оба плохие!

Безопасно переходить из области фактов в область неопределенности только тогда, когда ответственное лицо имеет четкое представление о том, что означает «достаточно хорошо» для проекта, и имеет возможность (с помощью собственных навыков или помощи коллеги) преобразовать на языке, с которым могут работать специалисты по данным. Все должно начинаться с цели — почему проекта — и тщательно учитывать реальные затраты и выгоды информации.

А это значит, что ваша первая реальная задача в любом проекте данных относительно мало связана с числами и гораздо больше связана с психологией и коммуникацией.

Каждый проект по работе с данными начинается с одного важного шага: понимания своего начальника и своего бизнеса.

Каждый проект по работе с данными начинается с одного важного шага: понимания своего начальника и своего бизнеса. Пропустите этот шаг на свой страх и риск!

Спасибо за прочтение

Если вам понравилась эта статья, продолжайте серию до следующей: Является ли простая случайная выборка действительно простой? скоро появится! А пока зайдите и скажите привет в Твиттере.



P.S. Вы когда-нибудь пытались нажать кнопку хлопка здесь, на Medium, более одного раза, чтобы посмотреть, что произойдет? ❤️

Понравился автор? Связаться с Кэсси Козырьковой

Давай будем друзьями! Вы можете найти меня в Twitter, YouTube, Substack и LinkedIn. Хотите, чтобы я выступил на вашем мероприятии? Используйте эту форму для связи.