Люди опираются на понятое понимание физического мира, чтобы предвосхитить движение предметов и вызвать кооперацию между ними. Если у вас есть три изображения, обозначающие опрокидывание банок — одна с банками, удобно сложенными друг над другом, вторая — с пальцем у основания стопки, а третья — с изображением банок, лежащих на боку, — вы можете предположить, что палец был ответственен за их смерть.

Роботы сражаются, чтобы совершать эти последовательные прыжки. Как бы то ни было, в статье Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института специалисты описывают структуру, называемую сетью временных отношений (TRN), которая в основном определяет, как вопросы меняются через некоторое время.

Люди опираются на поддающееся проверке понимание физического мира, чтобы предвидеть движение предметов и истолковывать связь между ними. Если у вас есть три изображения, обозначающие опрокидывание банок — одна с банками, удобно сложенными друг над другом, вторая — с пальцем у основания стопки, а третья — с изображением банок, лежащих на боку, — вы можете предположить, что палец руководил их уничтожением.

Роботы сражаются, чтобы совершать эти последовательные прыжки. Тем не менее, в статье из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института аналитики описывают структуру, называемую сетью временных отношений (TRN), которая в основном определяет, как протесты меняются через некоторое время.

Ученые подготовили сверточную нейронную систему — класс модели машинного обучения, которая чрезвычайно ловко разбирает визуальную символику — на трех наборах данных: TwentyBN's Something-Something, который включает более 20 000 записей в 174 классификациях деятельности; Jester, который имеет 150 000 записей с 27 движениями рук; и Charades Университета Карнеги-Меллона, который содержит 10 000 записей 157 аранжированных упражнений.

В этот момент они предоставили системе доступ к видеодокументам, которые она подготовила, запросив схемы на собраниях и определив вероятность того, что объекты на экране координируют научное действие — например, разрыв листа бумаги или поднятие руки.

Как дела? Модель выяснила, как добиться 95-процентной точности для набора данных Jester и превзойти существующие модели в упреждающих упражнениях с учетом ограниченного объема данных. После того, как было подготовлено только 25 процентов обложек видео, он превзошел шаблон и даже выяснил, как распознавать такие действия, как «устроить шоу, чтобы открыть книгу» по сравнению с «открытием книги».

В будущих исследованиях группа намеревается повысить современность модели, выполнив распознавание объектов и включив в нее «естественное материаловедение» — т. е. понимание свойств предметов в настоящей реальности.

(Изображение:-venturebeat.com)