Обзор конференции O’Reilly AI 2019 (Пекин)

Как я и ожидал от О'Рейли, это была отличная конференция. Отличные ораторы, хорошее место / расположение и хорошая еда. Было хорошее сочетание технических и нетехнических сессий, а также хорошее представительство как китайских, так и иностранных (в основном западных) компаний. Посетите сайт конференции.

Учебники

Аналитический зоопарк от Intel

(Слайды конференции на 中文, похожие слайды на английском)

Intel широко присутствовала на конференции, но, к счастью, это был не просто маркетинг. Раньше у меня был образ Intel как старого неповоротливого гиганта, который отставал с точки зрения аппаратного обеспечения для ИИ и не внес значительный вклад в развитие программного обеспечения, но после конференции Intel казалась мне более актуальной для ИИ.

Цитата из репозитория github, Analytics Zoo:

… provides a unified analytics + AI platform that seamlessly unites Spark, TensorFlow, Keras and BigDL programs into an integrated pipeline; the entire pipeline can then transparently scale out to a large Hadoop/Spark cluster for distributed training or inference.”

После ознакомления с руководством это действительно показалось весьма полезным, и это открытый исходный код. Как правило, для проекта машинного обучения извлечение / преобразование данных и обучение / вывод машинного обучения происходят в разных системах, поэтому хорошо иметь одну структуру / систему, чтобы делать все это за один раз. Уже был Spark MLlib, но он не годится для алгоритмов глубокого обучения. (Кстати, BigDL - это платформа Intel с открытым исходным кодом для глубокого обучения на процессорах, которая вроде как конкурирует с TensorFlow. Думаю, их цель - побудить больше людей запускать глубокое обучение на процессорах Intel, поскольку Intel не слишком хорош в создании графических процессоров.

Для запуска TensorFlow на Spark другой альтернативой может быть TensorFlowonSpark от Yahoo.

Кстати, похоже, что почти все участники Analytics Zoo и BigDL - китайцы (включая сотрудников Intel).

Дизайн-мышление для ИИ

Ключевые выводы:

Для систем AI / ML всегда есть «человек в курсе». Если вы думаете, что люди не участвуют в вашей автоматизированной системе, вы можете попробовать изменить границы вашей системы. В конце концов, всегда есть какое-то человеческое существо (например, конечный пользователь вашего мобильного приложения).
Важно не только, чтобы ИИ действительно хорошо выполнял свою работу. Очень важно, как люди воспринимают, как и почему ИИ делает то, что делает, и как люди общаются или дают обратную связь по этому поводу.

Спикер, казалось, сочетал мышление из областей дизайна продукта, пользовательского опыта, взаимодействия человека и компьютера, психологии, социологии и т. Д.

Например, техника Карты эмпатии - это обычная техника, используемая дизайнерами / менеджерами продуктов для мозгового штурма о том, как сочувствовать пользователям-людям. Тот же метод можно применить к системам ИИ. Как бы вы себя чувствовали / думали, если бы были ИИ? Что бы вы сделали с ближайшим человеком? Такой мысленный эксперимент / обсуждение может привести к лучшему дизайну приложений ИИ.

Сессии / беседы

Необоснованная эффективность трансферного обучения для НЛП

(Описание)
Отличный обзор трансферного обучения. Вывод: объем переобучения / тонкой настройки, который вам необходимо выполнить для трансферного обучения, во многом зависит от размеров и сходства между наборами данных.

NNI (Neural Network Intelligence) от Microsoft

Цитируя репозиторий github, NNI:

… a toolkit to help users run automated machine learning (AutoML) experiments. The tool dispatches and runs trial jobs generated by tuning algorithms to search the best neural architecture and/or hyper-parameters in different environments like local machine, remote servers and cloud.

Ниже приведен пример того, как NNI упрощает поиск нейронной архитектуры (NAS):

«Платформа науки о данных» (на Kubernetes) от Rakuten

(слайды конференции недоступны; аналогичные слайды в 日本語)

Rakuten - крупнейшая японская компания электронной коммерции. Они описали свои проблемы с аналитиками данных, которым нужно беспокоиться и которые плохо справляются с настройкой инфраструктуры, развертыванием модели в производство и т. Д., Несмотря на то, что они хотят сосредоточиться на работе по науке о данных (разработка моделей и т. Д.); Думаю, это очень распространенная проблема для многих компаний.

Таким образом, они разработали сквозную структуру (работающую поверх Kubernetes и использующую общие инструменты, такие как Airflow, Jupyter, Slack, Jenkins и т. Д.), Чтобы аналитики данных могли быстро и легко масштабировать и развертывать модели машинного обучения. Платформа также включает Центр знаний для сбора и обмена знаниями, который напомнил мне Репозиторий знаний AirBnB.

Они планируют открыть исходный код этой «Платформы Data Science» позже, возможно, в этом году (ура!)

Автонастройка для пения

(Описание на 中文)

Знаменитое приложение Auto-Tune на самом деле требует много ручной работы, чтобы добиться хорошего пения (что-то вроде Photoshop для аудио). Спикер разработал программное обеспечение, которое может взять аудиоклип плохого певца и аудиоклип профессионального певца и автоматически сгенерировать клип, в котором плохой певец поет как профессионал (MIDI-файл или другие структурированные данные не требуются).

Демо было очень впечатляющим; действительно, певец-любитель внезапно стал казаться профессиональным певцом! Программное обеспечение требовало множества шагов, включая не только машинное обучение, но и более традиционные методы обработки сигналов (такие как динамическое преобразование времени). Это может быть очень важно, особенно в Восточной Азии, учитывая популярность караоке.

Это напомнило мне Everybody Dance Now, алгоритм для создания видеороликов с профессиональными танцевальными движениями для плохого танцора.