Google заменяет BERT Self-Attention преобразованием Фурье: точность 92%, в 7 раз быстрее на графических процессорах

Архитектуры-преобразователи стали доминировать в области обработки естественного языка (NLP) с момента их появления в 2017 году. Одно из единственных ограничений для применения трансформатора - это огромные вычислительные затраты на его ключевой компонент - механизм самовнимания, который масштабируется с квадратичной сложностью относительно длины последовательности.

Новое исследование, проведенное командой Google, предлагает заменить подслои самовнимания простыми линейными преобразованиями, которые «смешивают» входные токены, чтобы значительно ускорить преобразователь кодировщика с ограниченными затратами на точность. Еще более удивительно то, что команда обнаружила, что замена подслоя самовнимания стандартным непараметризованным преобразованием Фурье позволяет достичь 92 процентов точности BERT в тесте GLUE, при этом время обучения в семь раз быстрее на графических процессорах и в два раза быстрее на TPU. .

Механизм самовнимания трансформеров позволяет представлять входные данные в единицах более высокого порядка, чтобы гибко фиксировать различные синтаксические и семантические отношения в естественном языке. Исследователи долгое время считали связанную с этим высокую сложность и объем памяти неизбежным компромиссом для впечатляющих характеристик трансформаторов. Но в статье FNet: сочетание токенов с преобразованиями Фурье команда Google бросает вызов этому мышлению с помощью FNet, новой модели, которая обеспечивает превосходный баланс между скоростью, объемом памяти и точностью.

FNet - это нормализованная по уровням архитектура ResNet с несколькими уровнями, каждый из которых состоит из подуровня микширования Фурье, за которым следует подуровень с прямой связью. Команда заменяет подуровень самовнимания каждого уровня кодера-преобразователя на подуровень преобразования Фурье. Они применяют одномерные преобразования Фурье как по измерению последовательности, так и по скрытому измерению. В результате получается комплексное число, которое можно записать как действительное число, умноженное на мнимую единицу (число «i» в математике, которое позволяет решать уравнения, не имеющие решений в виде действительных чисел). Сохраняется только действительное число результата, что устраняет необходимость изменять (нелинейные) подслои с прямой связью или выходные слои для обработки комплексных чисел.

Команда решила заменить самовнимание преобразованием Фурье - основанным на методе французского математика 19 века Жозефа Фурье для преобразования функции времени в функцию частоты - потому что они сочли это особенно эффективным механизмом для смешивания токенов, позволяющим ему предоставлять подуровни с прямой связью, достаточный доступ ко всем токенам.

В своих оценках команда сравнила несколько моделей, включая BERT-Base, кодировщик FNet (замените каждый подслой самовнимания на подуровень Фурье), линейный кодировщик (замените каждый подслой самовнимания линейными подслоями), случайный кодер ( замените каждый подслой самовнимания постоянными случайными матрицами) и кодировщик с прямой связью (удалите подслой самовнимания из слоев преобразователя).

Команда суммировала свои результаты и производительность FNet как:

Заменив подуровень внимания стандартным непараметризованным преобразованием Фурье, FNet достигает 92 процентов точности BERT в обычной настройке обучения с передачей классификации в тесте GLUE, но обучение происходит в семь раз быстрее на графических процессорах и в два раза быстрее на TPU.
Гибридная модель FNet, содержащая только два подслоя самовнимания, достигает 97 процентов точности BERT в тесте GLUE, но обучается почти в шесть раз быстрее на графических процессорах и в два раза быстрее на TPU.
FNet может конкурировать со всеми «эффективными» трансформаторами, оцененными в тесте Long Range Arena, при этом занимая меньше места в памяти при любой длине последовательности.

Исследование показывает, что замена подслоев самовнимания преобразователя на подслои Фурье FNet обеспечивает замечательную точность, значительно ускоряя время обучения, что указывает на многообещающий потенциал использования линейных преобразований в качестве замены механизмов внимания в задачах классификации текста.

Статья FNet: Смешивание токенов с преобразованиями Фурье находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Google заменяет BERT Self-Attention преобразованием Фурье: точность 92%, в 7 раз быстрее на графических процессорах

Вопросы по теме