Hugging Face принимает инженеров Kensho для разговора о технологиях преобразования речи в текст

18 января сообщество искусственного интеллекта с открытым исходным кодом Hugging Face пригласило инженеров по машинному обучению Kensho Джереми Лопеса и Рэймонда Гроссмана в качестве докладчиков на своей исследовательской группе ML 4 Audio 18 января. Тема презентации была Pyctcdecode: простое и быстрое преобразование речи в текст. алгоритм прогнозирующего декодирования.

В презентации были рассмотрены теория и практика декодирования прогнозов преобразования речи в текст на основе времени. Хотя решение этой проблемы может показаться простым, достижение оптимального или близкого к оптимальному декодирования может быть довольно сложным, отчасти потому, что модели предсказывают данные в единицу времени, а не в дискретной единице речи.

Джереми и Рэймонд обсудили, как Kensho решает эту проблему с нуля, охватив теорию, лежащую в основе решения, реализованного в pyctcdecode, и использование пакета pyctcdecode для декодирования речи в текст, создаваемый нейронными сетями.

Запись презентации доступна по ссылке: https://www.youtube.com/watch?v=CDuvVL0z_xk

Команда Kensho по машинному обучению недавно заключила партнерское соглашение с Hugging Face, ведущей компанией, занимающейся технологиями НЛП с открытым исходным кодом. В настоящее время Kensho сотрудничает с компанией по интеграции библиотеки Kensho Scribe pyctcdecode, чтобы предоставить библиотеке трансформеров Hugging Face поддержку языковой модели для ASR.

«Расширенная языковая модель ASR может привести к улучшению WER на 10–20% без необходимости переобучения модели», — недавно написал Hugging Face в Твиттере. «Больше никаких орфографических ошибок для Wav2Vec2».

Возможности Kensho по преобразованию речи в текст демонстрируются в нашем сервисе расшифровки Kensho Scribe, который специально оптимизирован для сложностей грязного, реального звука и нюансов разговорной речи. Обученный более чем 100 000 часов профессионально подготовленного аудио и соответствующих расшифровок, Scribe расшифровывает бизнес-аудио с непревзойденной точностью, скоростью и безопасностью.

Hugging Face принимает инженеров Kensho для разговора о технологиях преобразования речи в текст

Вопросы по теме