В этом быстро меняющемся мире данные растут в геометрической прогрессии, и их можно использовать в исследованиях в качестве операций с большими данными. Для одной и той же области поля доступны разные типы данных, которые можно анализировать в дальнейшем.

Мультимодельные данные

Мы, люди, можем использовать несколько видов данных, таких как видеосцены, изображения, звук и т. д. Такие данные можно использовать для решения конкретной проблемы, которая может извлекать результаты анализа из каждого типа данных и объединять их результаты для достижения конечной цели. модальностей.

Мультимодальное глубокое обучение

Мы все уже знаем методы и алгоритмы анализа глубокого обучения, который решает множество проблем. Мультимодальность данных может помочь решить более сложные задачи, когда данных одной области недостаточно, поэтому результаты объединения данных. Давайте углубимся с помощью примера сценария управления стихийными бедствиями в реальном времени, где мы хотим показать тяжелые условия на земле.

Здесь мы видим, что после предварительной обработки данных видеоклипы могут иметь оценку как пространственную и временную форму, а аудиоклипы могут использоваться в качестве входных данных для ГРУ для извлечения признаков. В дополнение к этому тексту входные данные могут быть предоставлены модулю НЛП для дальнейшего анализа настроений и извлечения знаний. Все методы в равной степени влияют на конечные результаты, которые не были бы сценариями реального времени. Давайте посмотрим, как это работает с нуля для получения окончательного результата в мультимодальном глубоком обучении.

Аудио-видео и текстовая модальность в сочетании со взвешенной комбинацией подсетей для объединения и обработки в качестве вывода. Все модели интегрированы с использованием модели слияния, основанной на алгоритмах MCA (анализ множественных соответствий), которые формируют корреляцию между моделью данных и конечными классами.

Кроссмодальное обучение

Эксперименты по кросс-модальному обучению оценивают одну модальность (видео) при предоставлении нескольких модальностей на этапе изучения функций. В экспериментах с современными документами очевидно, что перекрестная модальность для аудио не улучшила результаты классификации, а аудиофункции сильно различают распознавание речи, а добавление видеоинформации также иногда ухудшало общую производительность.

Результат объединения нескольких моделей

Визуальная модальность усиливает слуховую модальность, предоставляя такую ​​информацию, как точки артикуляции, которые могут помочь различить речь, которая звучит одинаково. Однако, когда звуковые и визуальные элементы просто комбинируются, производительность часто хуже, чем при использовании только звуковых характеристик.

Современные мультимодельные архитектуры DL и их результаты демонстрируют, что для успешного захвата взаимодействий между модальностями требуется как минимум один нелинейный этап. Когда обе модальности дали полезные характеристики, можно использовать линейную модель для представления взаимосвязей.