«Качество данных или качество модели»

Я пытался решить бизнес-задачу, в которой я должен ранжировать участников при решении проблемы, я был на этапе обработки данных и столкнулся с ситуацией, в которой я думал, что никто не беспокоится о том, как собираются данные и если это ручной сбор данных, это трудная работа. Большинство технологических компаний строят модели на основе данных, собранных с помощью технологий и утилизации, но в некоторых областях все обстоит иначе.

Мы все прошли фазу детства, и каждый может вспомнить свои воспоминания, чтобы сделать вывод о желании иметь лучшие игрушки или шоколад. Это подразумевает на всех этапах человеческой жизни желание и стремление стремиться к большему. Но подождите, почему я обсуждаю это здесь? Есть ли какой-либо контекст в теме «Никто не хочет выполнять работу с данными; все хотят работать над моделями», я бы сказал, подожди здесь и подумай об этом?

Люди всегда стремятся к причудливым вещам, а иногда и к сложным, вернитесь в свои школьные годы и подумайте о линейном уравнении {y = mx + c}, мы раньше называли его линейным уравнением, теперь мы знаем, что это машина алгоритм обучения. О нет, я снова спрашиваю? Но подождите, почему я обсуждаю это здесь? Есть ли какой-либо контекст в теме «Никто не хочет выполнять работу с данными; все хотят работать над моделями», я бы сказал, подожди здесь и подумай об этом?

Данные — это душа модели, мы уделяем гораздо больше внимания построению модели, чем данным. Методическая процедура получения информации об определенном предмете известна как сбор данных. Обеспечение точности ваших данных и их сбор в соответствии с моральными и юридическими нормами имеет важное значение на этапе сбора данных. В противном случае ваш анализ не будет верным и может иметь серьезные последствия.

Стратегии сбора данных могут быть реализованы следующими способами:

Первичные данные — это информация, которую ваша компания получила непосредственно от пользователей.
Сторонние данные или информация, которой одна компания делится с другой о своих клиентах (или собственные данные).
Сторонние данные или данные, которые были скомпилированы и сданы в аренду или проданы компаниями, не связанными с вашей компанией или ее пользователями.

Данные могут быть количественными или качественными (контекстными по своей природе) (то есть числовыми по своей природе). Оба типа данных могут быть собраны с использованием различных подходов, но некоторые из них больше подходят для одного типа, чем для другого.

Второй шаг в жизненном цикле данных — сбор данных. Чтобы ваша команда могла использовать сгенерированные данные, их необходимо сначала собрать. После этого его можно обрабатывать, управлять, анализировать и визуализировать для поддержки принятия решений внутри вашей организации.

Для создания систем искусственного интеллекта (ИИ) данные являются важнейшим компонентом инфраструктуры. Производительность, справедливость, надежность, безопасность и масштабируемость систем ИИ в первую очередь определяются данными. Наоборот, данные часто являются областью исследований и разработок ИИ, которая получает наименьшую финансовую поддержку, поскольку считается «действующей» по сравнению со знаменитой работой по созданию новых моделей и алгоритмов. Инженеры ИИ интуитивно понимают важность качественных данных, которые часто тратят чрезмерные усилия на задачи, связанные с данными.

На самом деле большинству организаций сложно установить какие-либо стандарты качества данных или соблюдать их, потому что они придают меньше значения работе с данными, чем разработке моделей.

В силу ряда факторов следует обратить особое внимание на недооценку данных в областях с высокими ставками, влияющих на безопасность живых существ.

Все больше и больше моделей ИИ используются разработчиками в сложных гуманитарных областях, таких как охрана материнства, безопасность дорожного движения и изменение климата.
Низкое качество данных может иметь непропорционально большие последствия для уязвимых сообществ и окружающей среды в секторах с высоким уровнем риска.

Согласно литературе, инициативы с высокими ставками отличаются от обслуживания клиентов; эти инициативы работают с сообществами и для сообществ, которым грозит длинный список ужасов. Плохое управление данными, например, снизило точность искусственного интеллекта IBM для лечения рака и привело к тому, что Google Flu Trends пропустил пик заболеваемости на 140%.

3. Системы искусственного интеллекта с высокими ставками часто используются в средах с ограниченными ресурсами и острой нехваткой легкодоступных высококачественных наборов данных. Приложения распространяются на места, где нет современной инфраструктуры данных или где рутинные действия еще не надежно задокументированы, например, расстояния пешком, необходимые для получения воды в сельской местности, в отличие, скажем, от данных о кликах.

И последнее, но не менее важное: ИИ с высокими ставками чаще создается при объединении двух или более дисциплин, например, ИИ и диабетической ретинопатии, что усложняет сотрудничество между заинтересованными сторонами на предприятиях и в разных областях.

В свете вышеупомянутых соображений проблемы качества данных в ИИ в настоящее время решаются с использованием неправильных инструментов, разработанных и приспособленных для других технологических трудностей — они решаются как проблема с базой данных, проблема соблюдения правовых норм или лицензионное соглашение. Поведение людей, создающих наборы данных, таких как сборщики данных и ученые, при сотрудничестве, решении проблем и осмыслении уже давно является предметом исследований. В этих областях также разрабатываются вычислительные артефакты для генерации наборов данных.

Нынешняя революция в области искусственного интеллекта основана на метриках, хотя специалисты-практики в основном использовали системные метрики, чтобы оценить, насколько хорошо модель соответствует данным. Феноменологическая достоверность (представление явлений) и валидность (насколько хорошо данные объясняют вещи, относящиеся к явлениям, зафиксированным данными) характеристики данных не могут быть адекватно описаны мерами согласия, такими как F1, точность и AUC.

Для описания качества данных в настоящее время нет стандартных показателей; тем не менее, метрические исследования начинают набирать обороты в разработке систем ИИ. В результате метрики продукта после развертывания и показатели соответствия в значительной степени зависят от него.

Во-первых, нет никаких гарантий относительно качества данных, предоставляемых этими показателями.

Во-вторых, им слишком поздно распознавать и исправлять неожиданные последствия каскадов данных.

Что еще более важно, как отмечается в литературе, развертывание систем ИИ в областях с высокими ставками в конечном итоге выявляет особенности явлений, которые не были зарегистрированы в наборе данных, что может привести к ошибочным и опасным результатам.

Целостность и качество данных, лежащих в основе этих моделей, приобретают все большую актуальность по мере того, как ИИ внедряется в процесс принятия решений в отношении фундаментальных элементов жизни.

Счастливого обучения…!!

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com

«Качество данных или качество модели» — что важнее?

Вопросы по теме