Несколько замечаний по GPT3

В недавнем видео на YouTube Тим Скарф и Янник Килчер взяли интервью у известных личностей, включая Гэри Маркуса, Валида Сабу, Коннора Лихи на тему #GPT3. Это почти 4-часовое видео, в котором рассказывается о некоторых интересных функциях и ловушках GPT3 как #LanguageModel и как инструмента.

Пока я смотрел это видео, я сделал несколько заметок (перечисленных ниже), которые, как мне кажется, были либо пропущены, либо искажены (или, может быть, я неправильно понял). Некоторые из этих замечаний будут менее понятны для тех, кто еще не смотрел видео.

Небольшое резюме о GPT3. Это модель «авторегрессионного генератора», обученная на большом количестве корпусов и имеющая около 175 миллиардов параметров. Вы начинаете с подсказки, и она генерирует токены с учетом определенных гиперпараметров. Что наиболее важно, существует пороговое значение (исторически известное как температура), которое варьируется от 0 до 1 и позволяет алгоритму быть менее жадным в своем поиске, более свободным.

Как отмечает Коннор Лихи, интересная особенность GPT3 заключается в том, что она улучшается за счет расширения набора данных и количества параметров (следовательно, чем больше, тем лучше мышление). Теперь вопрос в том, сможет ли он постепенно улучшаться до уровня человеческого интеллекта и выше его. Как физик, я думаю, что модель GPT3 (или любая модель внимания) — это просто модель Изинга, в которой токены являются составляющими. Итак, это хорошая модель, но, в конце концов, это модель Изинга.

Несколько подводных камней GPT3 перечислены Гэри Маркусом и Валидом Саба, в основном из-за того, что статистические модели, такие как GPT3, не рассуждают об их содержании. По сути, GPT3 — это не что иное, как интеллектуальная таблица поиска, которая очень удобна для запросов, но не более того. Не поймите меня неправильно, это мощно, но не имеет ничего общего с языковой моделью. Конечно, это требует дальнейшего уточнения нашего определения рассуждения.

Прежде чем перейти к моему длинному списку замечаний, я должен указать на очевидную ошибку на виду, то есть мы можем сгенерировать все, исправив данные и архитектуру. Хотя многие из нас разделяют данные и органы чувств, не все из нас Шекспир или Ньютон. Эти цифры имели доступ к более или менее тем же данным, что и многие другие (все могли видеть, как яблоки падают с деревьев), но не все пришли к одному и тому же выводу. В нулевом приближении у каждого из нас разная архитектура НС. Если что-то вроде GPT3 и способно генерировать интеллект человеческого уровня, то оно будет учиться на миллионах различных архитектур с одними и теми же данными! Я могу обсудить важность архитектуры, но для краткости оставлю это на потом. Без лишних слов вот мой список:

1) Универсальность переоценена: аргумент универсальности в отношении NN или сопоставления с образцом бесполезен и бессмысленен в любом контексте.

2) Нет парадокса пекаря-пекаря: GPT3 или любая языковая модель не несет коннотации к словам, по сути, в GPT3 нет парадокса пекаря-пекаря. Доказано, что эта коннотация важна для нашей памяти.

3) Поисковая система с искусственным интеллектом: я также согласен с тем, что нам нужна поисковая система с искусственным интеллектом. Я не думаю, что добавление #AI в Google что-то изменит. Нам нужна новая поисковая система с нуля, основанная на мышлении ИИ.

4) Обсуждается, что рассуждение есть не что иное, как установление связи между известными фактами! Что очень ошибочно, имхо. Абстракция и идеализация — основные ингредиенты, отсутствующие в любом ИИ, который существует до сих пор. Простое определение «точки» или «линии» — это идеализация, которая не исходит из повседневного опыта. Они живут исключительно в мире воображения. Например, в философии у нас есть определение небытия (вакуума), которое, я думаю, исходит не из наблюдения!!! На самом деле, человеческая цивилизация быстро развивалась, как только мы нашли способ абстрагировать модель мира в виде идеализированных математических уравнений. Для этого предлагаю прочитать: «Необоснованная эффективность математики в естественных науках» великого Юджина Вигнера.

5) Что-то, что меньше обсуждается здесь и в других местах, — это то, как измерить точность генеративной модели, такой как GPT3? Я знаю о недоумении, но это довольно грубая мера. Это сложный, но важный вопрос, заслуживающий большего *внимания*. ИИ «журналистски» хвалят в субъективных областях, таких как: живопись, стихи, но он терпит неудачу (иногда с треском) в объективных областях.

Еще раз я хотел бы призвать всех посмотреть это интервью, а не путешествовать во время праздников, и я был бы рад услышать ваши комментарии. P.S. Впервые я опубликовал эту статью на LinkedIn, однако сделал репост здесь для лучшего охвата.