Введение в лингвистическую относительность и универсальность в отношении разработки языковых моделей ИИ.

Недавно, работая над статьей, сравнивающей многоязычные модели с арабской языковой моделью, я задал вопрос, почему многоязычные модели, которые я тестировал, имели тенденцию работать хуже по сравнению с одноязычной моделью. Сравнение многоязычных и языковых инструментов напомнило мне недавнюю научную фантастику, прочитанную Нилом Стивенсоном: Snow Crash. В особенно запоминающейся беседе герой-хакер по имени Главный герой Хиро обсуждает противоречивые теории лингвистической относительности и лингвистической универсальности. с помощью ИИ (искусственного интеллекта), и все это делается для того, чтобы раскрыть истоки нейролингвистического взлома.

Я столкнулся с лингвистической относительностью более десяти лет назад в форме другого научно-фантастического романа, впечатляющего Вавилон-17 Сэмюэля Р. Делани. История вращается вокруг искусственного языка, оказывающего глубокое влияние на человеческий разум, основанного на вере в то, что язык влияет на человеческое мышление. Последние многоязычные модели, такие как Независимые от языка вложения предложений BERT (LaBSE) и Универсальный кодировщик предложений (USE), явно демонстрируют привлекательность универсального языка. Возникает вопрос: Должно ли машинное обучение естественного языка руководствоваться лингвистической относительностью или лингвистической универсальностью?

Я исследую этот вопрос в контексте последних разработок в области обработки естественного языка (НЛП) с помощью языковых моделей ИИ. Для доступности и контекста я сначала предлагаю базовую информацию о языковых моделях искусственного интеллекта, чтобы нарисовать репрезентативный ландшафт как инноваций, так и противоречий. Затем я даю релевантное ИИ введение в две лингвистические теории и описываю различия между ними. В конечном итоге я намерен подойти к главному вопросу через обсуждение роли лингвистической теории в понимании и развитии языковых моделей ИИ. Эта статья - первая в серии идей, соединяющих лингвистику и ИИ.

Почему языковые модели ИИ важны?

Для непосвященных языковая модель ИИ - это просто инструмент, который использует статистические и вероятностные методы для прогнозирования языка, которые составляют основу современных методов НЛП. Ранее в этом месяце Google анонсировал свою новейшую языковую модель искусственного интеллекта - Switch Transformer. В самой крупной форме он может похвастаться 1,6 триллиона параметров, что делает его крупнейшей из существующих языковых моделей искусственного интеллекта. Предыдущий рекордсмен OpenAi GPT-3 (раскрытый в мае 2020 года) имеет всего 175 миллиардов параметров, что делает его в 9 раз меньше, несмотря на то, что обучение обходится в 12 миллионов долларов. Можно только представить, сколько стоит обучение Switch Transformer от Google.

Благодаря невероятному количеству ресурсов, как рабочей силы, так и капитала, вложенных в языковые модели ИИ за последние несколько лет, сформировалась четкая парадигма. Это привело к серьезной растущей озабоченности по поводу социальной ответственности и воздействия на окружающую среду. Рассмотрим, например, парадокс, когда Google открыла исходный код для Switch Transformer, когда всего месяцем ранее они лицемерно уволили своего ведущего исследователя этики ИИ, доктора Тимнита Гебру, за исследование социальное и экологическое влияние языковых моделей искусственного интеллекта - возможно, именно эти вопросы она была нанята для изучения. Google - не единственная компания, которая путешествует по этой потенциально опасной местности; каждый FAANG инвестируется в НЛП в связи с финансовыми возможностями. Что касается денежного стимулирования, OpenAI, основанный Илоном Маском, утверждает, что GPT-3 слишком опасен, чтобы делиться им из-за потенциального злоупотребления; этот рассказ используется для оправдания платного доступа, установленного ранее некоммерческой компанией для монетизации чрезвычайно дорогой модели.

Я упоминаю эти примеры, чтобы прояснить социальную и финансовую важность языковых моделей ИИ. Тем не менее, я признаю свою предвзятость как исследователя, ориентированного на равенство, который использует языковые модели для дальнейшего включения социально маргинализированных сообществ. Поэтому я намерен полагаться на свой опыт, чтобы просто прокомментировать то, что я считаю конфликтующими лингвистическими философиями, лежащими в основе текущих исследований НЛП.

Типы языковых моделей

Чтобы начать рассмотрение основного вопроса о лингвистической относительности и универсальности, необходимо различать четыре различных типа языковых моделей. Во-первых, существуют модели для одного языка, такие как популярные модели BERT, ERNIE и BigBird, которые случайно и причудливо назван в честь персонажей Улицы Сезам. Все три являются англоязычными моделями, однако ERNIE (созданная Baidu) также доступна как китайская языковая модель. В настоящее время существуют одноязычные модели для других языков, таких как арабский (AraBERT) и французский (CamemBERT), но они редки из-за непомерно высокой стоимости производство таких больших моделей.

Во-вторых, существует большой интерес к двуязычным моделям нейронного перевода, поскольку машинный перевод является важной задачей НЛП, но, опять же, основное внимание уделяется переводу на английский и с английского. Последние два типа - многоязычные и межъязыковые модели - имеют много общих характеристик, поскольку оба они включают обучение на нескольких языках. Важное различие заключается в цели обучения: для многоязычных моделей цель состоит в том, чтобы обнаружить лежащие в основе универсальные общие свойства языка, в то время как кросс-языковые модели стремятся соединить слова с одинаковым значением из разных языков, не пытаясь обобщить универсальную структуру. .

Исследования в этой области переплетены, а многоязычное моделирование признано более сложной задачей. В качестве примера такой запутанности в 2018 году Facebook выпустил Межъязыковой корпус логического вывода на естественном языке (XNLI), который был построен путем расширения Многожанрового корпуса логического вывода на естественном языке ( MultiNLI) ; XNLI впоследствии использовался Google для создания Multilingual BERT (M-BERT).

Можно утверждать, что языковые модели воплощают позицию лингвистического релятивизма, тогда как многоязычные модели следуют принципам лингвистической универсальности. В настоящее время тенденции в языковых моделях ИИ имитируют тенденции лингвистической теории, в соответствии с которой универсалистская теория доминирует в философских разговорах о языке.

Лингвистическая универсальность

В области лингвистики универсалистскую теорию языка обычно приписывают Ноаму Хомскому, который предложил универсальную грамматику, предполагая, что все языки имеют одни и те же базовые структуры, уходящие корнями в глубокие структуры человеческого мозга. Согласно Хомскому, эти глубокие структуры являются врожденными компонентами человеческого мозга, которые позволяют ему выполнять формальные операции с цепочками символов. Если кто-то разделяет универсалистскую точку зрения, то обучение машины многим языкам должно позволить ей изучить эти глубокие универсальные структуры и, таким образом, научиться говорить на любом языке.

Черпая вдохновение в нейробиологии, Хомский сосредотачивается на различиях между умом ребенка и умом взрослого, особенно в отношении овладения языком. С универсалистской точки зрения, ребенок рождается со способностью изучать любой язык благодаря предварительно сформированным структурам, и хотя взрослому разуму не хватает нейропластичности мозга новорожденного, взрослый должен сохранить глубокие структуры мозга, ответственные за овладение языком.

Лингвистическая относительность

Обычно лингвистическая относительность упоминается как гипотеза Сепира – Уорфа, несмотря на то, что ни один из двух названных лингвистов не создал эту идею. Помимо этого неправильного названия, ключевым понятием является идея о том, что язык влияет на человеческое мышление; Вавилон-17 Делейни является ярким примером того, к чему может привести эта наводящая на размышления гипотеза (полностью задуманный каламбур). Лингвистический релятивизм предполагает, что язык является структурой познания, так что машина, которая изучает конкретный язык, «думает» иначе, чем машина, обученная на 100 языках. В первую очередь это связано с уникальными особенностями отдельных языков, особенно тех, которые нельзя отнести к универсальной структуре. Что касается глубинных структур Хомского, релятивисты утверждали бы, что человеческий разум безграничен, ему не хватает заранее сформированной структуры, и поэтому языки не обязательно должны иметь общие черты.

Религия и «естественное» происхождение языка

Я приписываю свое любопытство по поводу «естественного» происхождения языка упомянутому ранее роману Снежный сбой. Стивенсон творчески связывает историю, в частности древний шумерский язык, с развитием нейролингвистического взлома, концепции, которая перекликается с концепцией Babel-17 Делани. До изучения нейробиологии и психолингвистики изучение естественного языка в западном мире находилось под глубоким влиянием религии. Рассмотрим заголовок Вавилон-17 - «Вавилон» - это отсылка к библейской истории о Вавилонской башне, событии, которое отделило человечество от одного народа, говорящего на универсальном языке. во фрагментированные сообщества, которые не могли понять друг друга. Эта история дает религиозное объяснение наблюдаемым различиям между языками и неоспоримому свойству естественного языка, которое имеет тенденцию к расхождению.

Есть ли золотая середина?

Согласно Стивенсону, можно изменить теорию Хомского, предположив, что изучение языка похоже на «выдувание кода в PROM»; аналогия, обеспечивающая золотую середину между лингвистической относительностью и универсальностью. PROM - это программируемые микросхемы памяти только для чтения; они продаются пустыми (tabula rasa), и как только информация записывается в микросхему в первый раз, она фиксируется на месте, преобразовываясь в аппаратное обеспечение только для чтения. По словам Стивенсона,

«Мозг новорожденного человека не имеет структуры - как утверждали бы релятивисты - и что по мере того, как ребенок изучает язык, развивая соответственно структуру мозга, язык« проникает в аппаратное обеспечение и становится постоянной частью глубинной структуры мозга ». - как сказали бы универсалисты ».

Несмотря на заметное влияние лингвистической универсальности на языковые модели ИИ, мои собственные эксперименты показывают, что текущие исследования ИИ еще не взломали код. Мне объяснили, что в арабском языке есть одно слово для обозначения снега; Однако есть несколько слов для обозначения песка, каждое из которых описывает определенную разновидность песка. Это усложняет создание многоязычной (или кросс-языковой) модели и проясняет, почему модель, ориентированная на арабский язык, может дать лучшие результаты. Однако заявить о релятивистской позиции - значит исключить реалии, описанные в Универсальной грамматике Хомского. Более правдоподобным кажется предположение, что элементы обеих лингвистических теорий присутствуют в текущих исследованиях ИИ. Возможно, заимствуя аналогию Стефенсона, возможно, что обучение языковой модели ИИ только на арабском языке создает «глубокие структуры» в модели глубокого обучения, и эта структура с фиксированным шаблоном, несмотря на то, что она специфична для языка, имеет универсальные общие черты. В конечном итоге, однако, модель «думает» на арабском языке, на котором она была обучена; это дает преимущество перед многоязычными моделями, которые полагаются исключительно на универсальные свойства.

Последние мысли

Языковые модели ИИ могут стать строительными блоками будущего. Однако, если мы ценим справедливость и демократию, необходимо обеспечить доступность этих инструментов. Кроме того, языки с ограниченными ресурсами заслуживают вложений; включение является предпосылкой справедливости, и должны быть доступны качественные, хорошо изученные наборы данных, чтобы уменьшить предвзятость. Кроме того, языковые модели ИИ следует тщательно исследовать, чтобы оценить степень и направление предубеждений, а результаты следует публично обсудить, в противном случае существует риск несправедливости.

Мои исследовательские интересы лежат на стыке машинного обучения и социальной справедливости. Следовательно, меня беспокоит этическое обоснование использования языковых моделей ИИ. Я намерен развить свои опасения во второй мысли: я буду использовать лингвистическую теорию как линзу, через которую я буду оценивать влияние и риски попыток понять естественный язык с помощью искусственного интеллекта. Вдохновленный недавно выпущенной новой моделью OpenAI DALL-E (январь 2021 г.), я планирую расширить этот лингвистический подход, включив в него предположения о будущих возможностях, которые существуют для языковых моделей ИИ.