Этот гостевой пост написал волонтер Restart Стив Кук. Мы хотели бы поблагодарить Стива за его долгую службу Restart. Читайте дальше, чтобы узнать больше о его бесценном вкладе.

Наша система Fixometer позволяет группам сообществ записывать данные о своих ремонтных работах и ​​предоставляет им показатели, которые помогают количественно оценить положительное влияние их деятельности. Организаторы мероприятий используют его для записи таких данных, как тип устройств, доставленных на Restart Party, и результаты ремонта.

Шаблоны и тенденции в этих данных могут дать нам убедительное представление о движении за ремонт, и в настоящее время Fixometer фиксирует более 6000 попыток ремонта устройств. Эти данные также подчеркивают возможности для улучшения Fixometer, полезного круга обратной связи, который улучшит качество и количество собираемых данных.

Здесь, в штаб-квартире Restart, мы изучаем инструменты и методы для работы с этими данными, и это постоянный процесс, поэтому я опишу путь к этому.

Запрос наших данных

Наша первая цель состояла в том, чтобы создать быстрый и гибкий способ запроса данных фиксометра и создания сводных панелей результатов. В самом Fixometer есть некоторые из последних, но он не предназначен для специальных запросов, поэтому мы искали отдельное решение. Мы оценили re: dash, Grafana и Tableau, но остановились на Metabase за простоту использования, простоту, широкое распространение и открытый исходный код. Metabase предоставляет нам мощные инструменты для создания отчетов и построения диаграмм:

Это позволяет намного проще делать выводы или заключения на основе данных, например:

  • Более 90% измельчителей бумаги были успешно отремонтированы (скорее всего, потому, что они электрически и механически просты и обычно выходят из строя из-за засорений, которые можно удалить)
  • Только примерно каждая третья камера, которую мы видим, отремонтирована успешно (возможно, из-за высокого уровня миниатюризации, сложности и хрупкости мелких механических деталей, вероятности физического повреждения и отсутствия запасных частей)

Мы также можем отображать информацию о наших мероприятиях, показывая рост с течением времени и географическое распространение:

В целом, то, что дает нам Metabase, очень мощно, но также подчеркивает важность точности исходных данных. Итак, мы начали разбирать детали.

Проблемы качества данных

Мы обнаружили, что основная проблема качества данных связана с данными устройства Fixometer; эти данные поступают из каждого события ремонта, где они обычно сначала записываются на флипчарт или аналогичную автономную систему, а затем вводятся в Fixometer после события.

Есть две основные точки данных, которые мы хотим захватить на каждом устройстве:

  1. Что это было? Устройство какой категории и, в идеале, марки и модели?
  2. Каков был результат? Был ли ремонт отремонтирован успешно, не подлежит ремонту или требуются дополнительные усилия?

Категория определяет наш расчет выбросов CO2, а результат определяет воздействие (например, отремонтированное устройство, вероятно, означает, что не нужно производить замену устройства, что приводит к расчету воздействия CO2).

Поскольку эти данные записываются «на местах», следует ожидать некоторых пробелов и несоответствий. Мы использовали Metabase для создания информационных панелей по качеству данных, показывающих, например, метрики по отсутствующей марке / модели, и выполнили ручное упражнение по «обработке данных», чтобы просмотреть и повторно классифицировать устройства, которые были занесены в категорию «Разное».

Первый проход был выполнен с использованием электронной таблицы для редактирования данных, а затем внесение изменений в тестовую среду Fixometer для проверки влияния на рассчитанные метрики. Мы также рассмотрели возможность использования для этого инструментов обработки данных, включая OpenRefine и Trifacta; они могут быть полезны в будущем, так как хорошо подходят для поставленной задачи.

Ручная проверка также была очень полезна для определения того, где мы могли бы создать новые категории для таких предметов, как швейные машины, которые встречаются довольно часто, но в настоящее время не имеют специальной категории. Большое спасибо волонтеру Restart Стефании Фантини за ее детальный обзор данных в этом проекте.

Стандартизация

Затем мы рассмотрели, как лучше всего согласовать данные с общим стандартом, чтобы «нормализовать» их. Мы видели несколько вариантов написания названий брендов, а также некоторые данные, в которых модель и бренд были объединены; чтобы избежать этого, было бы предпочтительно, чтобы фиксометр направлял пользователя к стандартизованным формам каждого из них.

Для этого потребуется чистый источник справочных данных по брендам и моделям; для этого мы исследовали, используя открытые источники данных, включая WikiData и Open Knowledge International, набор продуктов iFixit, идентификаторы продуктов Google и базу данных брендов Всемирной организации интеллектуальной собственности, а также ссылаясь на данные из Fixometer.

В частности, WikiData имеет то преимущество, что она открыта, активно поддерживается, с хорошими инструментами запросов и хорошо зарекомендовавшей себя моделью для описания элемента (например, «iPhone 4S» является подклассом «iPhone», который является подклассом «Мобильное устройство», и производится компанией «Apple»).

Google работает над стандартизацией данных о товарах, но на самом деле он предназначен для продавцов, не казался особенно доступным и вряд ли будет включать устаревшие продукты.

Набор данных iFixit особенно подходит, поскольку он предназначен для ремонта, а средство выбора продуктов на веб-сайте iFixit для руководств по ремонту является хорошим примером того, как побудить пользователя ввести подробные данные, не будучи утомительным.

Это требует дальнейшей работы, чтобы прийти к заключению, и должно быть сделано как часть определения Стандарта открытых данных по ремонту.

Машинное обучение и будущее

Наконец, мы рассмотрели использование машинного обучения для автоматической (повторной) классификации каждой записи об устройстве на основе существующих данных (категории, бренда / модели и комментариев).

Мы использовали uclassify.com, веб-сервис для обучения и использования классификаторов, который можно интегрировать с Fixometer. Первые результаты по этому поводу многообещающие, особенно в отношении автоматического назначения категории устройства на основе бренда / модели / комментария.

Это было бы полезно для дальнейшей очистки данных и потенциально могло бы упростить процесс сбора данных в Fixometer, что улучшило бы качество данных.

Первоначально опубликовано на сайте therestartproject.org 17 мая 2018 г.