Итак, я довольно долго читал исследовательские работы и подумал, что было бы хорошо, если бы я делился тем, что я узнаю и понимаю из них. ).

Я выбираю исследовательскую работу, опубликованную сотрудниками Google на тему распознавания речи с использованием моделей Sequence to Sequence.

Это в основном основано на модели Sequence to Sequence.

Что такое последовательность для модели последовательности? 😰

Не беспокойтесь.

Модель «последовательность в последовательность» предназначена для обучения моделей преобразованию последовательностей из одного домена в последовательности другого домена. Всякий раз, когда вы чувствуете необходимость создать текст, вы можете легко использовать его.

Что же означает приведенное выше определение?

Предположим, у нас есть последовательность кадров из видео, и мы хотим проанализировать действие, выполняемое в видео, на основе этих последовательностей кадров. Это также можно сделать для создания предложений (своего рода последовательности) из таких последовательностей . Если учесть В случае переводов его можно использовать для преобразования последовательностей с одного языка на нужный язык. Генерация подписей также является отличным примером.

Эта модель набирает популярность в сообществе распознавания речи как способ складывания отдельной модели (акустической, языковой, модели произношения), на которой построена текущая система распознавания речи.

Таким образом, модель последовательности для последовательности может быть легко использована для объединения разных моделей в одну. По крайней мере, так это было использовано здесь.

Введение

Мы будем сравнивать традиционную систему распознавания речи с моделью последовательностей, описанной выше. Как всегда в поисках места для улучшений, эта модель последовательности к последовательности получает улучшения в размере 13%, и это значительное улучшение, согласно исследованию.

Эти улучшения связаны со структурными и оптимизационными изменениями в моделях.

Как описано, Listen, Attend and Spell — это модель последовательности, основанной на внимании к последовательности, которая используется здесь для конкуренции с традиционными системами, также известными как модели автоматического распознавания речи.

Нам нужно обратить внимание на то, что на самом деле является моделью, основанной на внимании.

Внимание – это механизм, который ускоряет процесс обучения от длинной последовательности к модели последовательности . Он работает за счет предоставления более богатого контекста входных данных. последовательность от кодировщика к декодеру и механизм обучения тому, на что следует обратить внимание в более богатом кодировании при прогнозировании каждого временного шага в выходной последовательности. .

Традиционные модели распознавания речи содержат эти три модели, указанные как акустическая, произношение и языковая модели.

Акустические модели:

Задача этой модели — показать представление взаимосвязи между аудиосигналом и его фонемами.

Он дает статистическое представление каждого отдельного звука, из которого состоит слово.

Представление звуков числами…

Модели произношения:

Эти модели помогают обнаруживать варианты и предсказывать правильное произнесенное слово.

Эти модели помогают нам позаботиться об изменении произношения в акценте, с которым мы сталкиваемся в повседневной жизни.

Языковая модель:

Это сделано для того, чтобы мы могли сделать быстрое и эффективное потоковое онлайн-распознавание речи.

Он обеспечивает контекст, чтобы различать слова и фразы, которые звучат похоже.

Это помогает различать очень похожие по звучанию фразы, такие как «распознать речь» и «разрушить хороший пляж». .

Переход от традиционной модели распознавания речи к модели последовательности за последовательностью увеличил WER (коэффициент ошибок в словах) с 9,2% до 5,8%.
Улучшение на 13 % по сравнению с LAS, в то время как при использовании обычного метода W.E.R. составляет 6,7 %.

Модель ЛАС:

LAS (Listen, Attend and Spell) – это единая нейронная сеть, включающая в себя кодировщик, аналогичный обычной акустической модели, присутствующий, который действует как модель выравнивания. ,a и декодер, который аналогичен языковой модели в обычной системе. И он работает довольно хорошо, как они сравнивали, данные здесь.

Серьезное изменение от традиционной модели последовательности к модели последовательности привело к минимизации количества ожидаемых ошибок в словах (MWER).

С помощью запланированной выборки, которая во время обучения передает прогноз предыдущей метки, а не истину. мы эффективно улучшили частоту ошибок в словах.

Обзор системы Базовая модель LAS

Кодировщик слушателя:

Как и в акустической модели, входные функции берутся и сопоставляются с представлением функций более высокого уровня.

Участник:

Определяет, на какую функцию кодировщика следует обратить внимание, чтобы предсказать следующий выходной символ.

Декодер:

Принимает контекст внимания, созданный посетителем, а также встраивание предыдущего прогноза для создания распределения вероятностей.

Давайте сначала узнаем несколько терминов:

Фонемы: перцептивно различимая единица звуков определенного языка, которые отличаются друг от друга.

Графемы: буква или набор букв для обозначения звука в слове.

Структурные улучшения :

Модель из 1 слова
Использование последовательности для построения последовательности моделей с помощью графем в качестве единиц вывода помогает сложить модель A.M. , ВЕЧЕРА. , L.M. в одну нейронную сеть и обойти проблему слов вне словарного запаса.

Недостатком использования фонем является то, что для этого требуется наличие дополнительных Ф.М. и LM , которые, как было обнаружено, не улучшаются по сравнению с графемами.

Гораздо меньшая сложность в модели фрагментов слов позволяет использовать лучшую языковую модель декодера по сравнению с графемой. Моделирование более длинных блоков улучшает эффект декодера L.S.T.M. (Долгосрочная кратковременная память) и позволяет модели потенциально запоминать произношение часто встречающихся слов.

Чем длиннее единицы, тем меньше требуется шагов декодирования, что значительно ускоряет вывод в этих моделях. модели частей слов.)

Слова разбиваются детерминировано и независимо от контекста, используя жадный алгоритм, чтобы получить только слова, а не возможность из-за ложного предсказания.

2 Многоцелевое внимание:

М.Х.А. расширяет традиционный механизм внимания, добавляя несколько головок, где каждая головка может генерировать различное распределение внимания. Это позволяет различным головкам по-разному обслуживать выходы энкодера, и они могут иметь свою собственную индивидуальную роль.

Это очень ясно из приведенного выше объяснения.

Традиционный: одноголовая архитектура, здесь кодировщик предоставляет модели четкие сигналы о высказываниях, чтобы декодер мог получить информацию. с вниманием.

Улучшение оптимизации:

1. Минимальный уровень ошибок в словах :

Функция потерь, которую мы оптимизируем для системы, основанной на внимании, является функцией потерь на уровне последовательности, а не коэффициентом ошибок слова.

Стратегия заключается в том, чтобы свести к минимуму ожидаемое количество ошибок в словах .

2. Запланированная выборка:
Подача наземной метки истины в качестве предыдущего прогноза (так называемая принудительная работа учителя) помогает декодеру быстро обучаться в начале, но вводит минимум разница между обучением и выводом.

С другой стороны, запланированный процесс выборки производит выборку из распределения вероятностей предыдущего прогноза, а затем использует полученный токен для подачи в качестве предыдущего токена при прогнозировании следующей метки.

Запланированная выборка в основном работает на концепции, которая генерирует набор данных для подачи из предыдущей выборки, а затем использует ее для прогнозирования следующей выборки.

3. Асинхронное и синхронное обучение :

Синхронное обучение может обеспечить более высокую скорость сходимости и лучшее качество модели, но также требует больше усилий для стабилизации обучения сети .

В асинхронном обучении мы видим увеличение количества реплик, т. е. система не будет запускать все реплики обучения сразу, а будет использовать их постепенно.

В асинхронном режиме мы используем нарастание, то есть система не запускает все обучающие реплики сразу, а вместо этого запускает их постепенно. В Sync мы используем два: увеличение скорости обучения и отслеживание нормы градиента. скорость обучения равна 0 и постепенно увеличивает скорость обучения, обеспечивая эффект, аналогичный нарастанию реплики.

Отслеживание нормы градиента отслеживает скользящее среднее нормы градиента и отбрасывает градиенты со значительно более высокой дисперсией, чем скользящее среднее .

Оба подхода имеют решающее значение для обеспечения стабильности синхронного обучения.

4. Сглаживание ярлыков :

Это механизм регуляризации, предотвращающий слишком уверенные прогнозы модели.

Мы получили более высокую энтропию за счет сглаживания распределения меток истинности с помощью равномерного распределения по всем меткам.
Это помогает нам делать более точные и точные прогнозы только потому, что мы увеличили случайность маркировки данных.

Обоснование второго прохода :External LM помогает использовать большие объемы дополнительных данных, для которых у нас есть только текст. LM в модели подвергается воздействию только расшифровок обучения, поэтому мы используем внешний LM только во время вывода. Сначала обучение в предметной области, а затем комбинированное использование байесовской интерполяции.

РЕЗУЛЬТАТЫ:

Структурные улучшения:

Модель частей слов работает немного лучше, чем графемы, что приводит к относительному улучшению примерно на 2% в W.E.R. (Коэффициент ошибок в словах). Отдых находится на вершине M.H.A. и модель WPM.

Улучшение оптимизации:

Включает синхронную тренировку поверх W.P.M.+ M.H.A. модель обеспечивает улучшение на 3,8 %. В целом оптимизация составляет около 22,5%, перемещая W.E.R. с 8,0% до 6,2%.

Вывод :

Предлагаемая здесь модель «Последовательность за последовательностью» дает относительное улучшение W.E.R. на 11%. но однонаправленный L.A.S. система имеет некоторые ограничения. Кодировщик должен увидеть все высказывание целиком, прежде чем какие-либо метки смогут быть декодированы.
Итак, чтобы не смотреть на все высказывание одновременно, нам нужны некоторые онлайн-шаблоны и алгоритмы, которые помогут нам в этом. модель, основанная на потоковом внимании, и модель распознавания речи, известная как нейронный преобразователь.

Я буду очень благодарен, если вы оставите свои слова в комментарии ниже, они действительно много значат для меня.

Каждую неделю в указанных разделах будет появляться новый контент. Поэтому не забудьте подписаться на Curiosity Journey, чтобы оставаться в курсе.

Цените это, если оно помогло вам, поделившись в вашем сообществе, и оставьте комментарий ниже, хлопнув в нижнем правом углу. 😊

Это будет означать для меня целый мир ❤️

Кроме того, свяжитесь со мной @adityad85 в Twitter и Instagram.

Если это помогло вам, пожалуйста, помогите кому-нибудь еще.

Сделайте первый шаг 🖖