Мультимодальное глубокое обучение

В этом быстро меняющемся мире данные растут в геометрической прогрессии, и их можно использовать в исследованиях в качестве операций с большими данными. Для одной и той же области поля доступны разные типы данных, которые можно анализировать в дальнейшем.

Мультимодельные данные

Мы, люди, можем использовать несколько видов данных, таких как видеосцены, изображения, звук и т. д. Такие данные можно использовать для решения конкретной проблемы, которая может извлекать результаты анализа из каждого типа данных и объединять их результаты для достижения конечной цели. модальностей.

Мультимодальное глубокое обучение

Мы все уже знаем методы и алгоритмы анализа глубокого обучения, который решает множество проблем. Мультимодальность данных может помочь решить более сложные задачи, когда данных одной области недостаточно, поэтому результаты объединения данных. Давайте углубимся с помощью примера сценария управления стихийными бедствиями в реальном времени, где мы хотим показать тяжелые условия на земле.

Здесь мы видим, что после предварительной обработки данных видеоклипы могут иметь оценку как пространственную и временную форму, а аудиоклипы могут использоваться в качестве входных данных для ГРУ для извлечения признаков. В дополнение к этому тексту входные данные могут быть предоставлены модулю НЛП для дальнейшего анализа настроений и извлечения знаний. Все методы в равной степени влияют на конечные результаты, которые не были бы сценариями реального времени. Давайте посмотрим, как это работает с нуля для получения окончательного результата в мультимодальном глубоком обучении.

Аудио-видео и текстовая модальность в сочетании со взвешенной комбинацией подсетей для объединения и обработки в качестве вывода. Все модели интегрированы с использованием модели слияния, основанной на алгоритмах MCA (анализ множественных соответствий), которые формируют корреляцию между моделью данных и конечными классами.

Кроссмодальное обучение

Эксперименты по кросс-модальному обучению оценивают одну модальность (видео) при предоставлении нескольких модальностей на этапе изучения функций. В экспериментах с современными документами очевидно, что перекрестная модальность для аудио не улучшила результаты классификации, а аудиофункции сильно различают распознавание речи, а добавление видеоинформации также иногда ухудшало общую производительность.

Результат объединения нескольких моделей

Визуальная модальность усиливает слуховую модальность, предоставляя такую информацию, как точки артикуляции, которые могут помочь различить речь, которая звучит одинаково. Однако, когда звуковые и визуальные элементы просто комбинируются, производительность часто хуже, чем при использовании только звуковых характеристик.

Современные мультимодельные архитектуры DL и их результаты демонстрируют, что для успешного захвата взаимодействий между модальностями требуется как минимум один нелинейный этап. Когда обе модальности дали полезные характеристики, можно использовать линейную модель для представления взаимосвязей.

Мультимодальное глубокое обучение

Вопросы по теме