Встречайте Vicuna: последняя модель ламы Meta, которая соответствует производительности ChatGPT

Модель была создана исследователями из Калифорнийского университета в Беркли, CMU, Стэнфорда и Калифорнийского университета в Сан-Диего.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 150 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:

Последовательность | Хесус Родригес | Substack
Лучший источник информации о разработках в области машинного обучения, искусственного интеллекта и данных…thesequence.substack.com

С момента своего выпуска лама Meta AI стала основой для всех видов моделей разговорного ИИ. Alpaca из Стэнфорда и Dolly от Databricks — это некоторые из новых базовых моделей, построенных на базе Llama. Кажется, у всех у них имена, связанные с… мы… ламами. Последним дополнением к списку является Викуна, результат сотрудничества исследователей из Калифорнийского университета в Беркли, Университета Калифорнии, Стэнфорда и Калифорнийского университета в Сан-Диего.

Vicuna-13B — это новый чат-бот с открытым исходным кодом, разработанный для устранения недостатка обучения и деталей архитектуры в существующих больших языковых моделях (LLM), таких как ChatGPT от OpenAI. Vicuna-13B обучается путем точной настройки базовой модели LLaMA с использованием примерно 70 000 общих разговоров пользователей, собранных с ShareGPT.com, что приводит к расширенному набору данных. Предварительная оценка Vicuna-13B с использованием GPT-4 в качестве судьи показывает, что она обеспечивает более 90% качества OpenAI ChatGPT и Google Bard, превосходя при этом другие модели, такие как LLaMA и Stanford Alpaca, более чем в 90% случаев.

Архитектура

Vicuna — это чат-бот с открытым исходным кодом, который был настроен на основе базовой модели LLaMA с использованием примерно 70 000 общих разговоров пользователей, собранных с ShareGPT.com с помощью общедоступных API. Чтобы обеспечить качество данных, исследовательская группа преобразовала HTML обратно в уценку и отфильтровала неподходящие или некачественные образцы. Они также разделили длинные разговоры на более мелкие сегменты, соответствующие максимальной длине контекста модели.

Исследовательская группа использовала рецепт обучения альпаки Стэнфорда, чтобы оптимизировать производительность викуньи с несколькими ключевыми улучшениями, в том числе:

· Оптимизация памяти: команда увеличила максимальную длину контекста с 512 для альпаки до 2048, чтобы лучше понимать длинные разговоры. Однако это существенно увеличило требования к памяти графического процессора, поэтому команда использовала контрольные точки градиента и привлекла внимание, чтобы справиться с нехваткой памяти.

· Разговоры в несколько раундов. Команда скорректировала потери при обучении с учетом многократных разговоров и рассчитала потери при точной настройке исключительно на основе выходных данных чат-бота.

· Сокращение затрат за счет спотовых инстансов. При наличии в 40 раз большего набора данных и в 4 раза длины последовательности для обучения затраты на обучение стали серьезной проблемой. Чтобы снизить затраты, команда использовала управляемый спот SkyPilot, чтобы использовать более дешевые спотовые инстансы с автоматическим восстановлением для вытеснения и автоматическим переключением зон.

Эти оптимизации способствуют способности Vicuna понимать и отвечать на сложные разговоры, а стратегии снижения затрат делают его доступным вариантом для исследователей и разработчиков, стремящихся создавать системы чат-ботов.

Чтобы обучить Vicuna, исследовательская группа собрала около 70 000 разговоров с ShareGPT.com, веб-сайта, где пользователи могут делиться своими разговорами ChatGPT. Затем они улучшили учебные сценарии, предоставленные Alpaca, чтобы лучше справляться с многоэтапными разговорами и длинными последовательностями. Команда использовала PyTorch FSDP на 8 графических процессорах A100 для обучения Vicuna всего за один день.

Чтобы обслуживать демонстрацию, команда реализовала облегченную распределенную систему обслуживания, способную обслуживать несколько моделей с распределенными рабочими процессами. Эта система поддерживает гибкое подключение рабочих графических процессоров как из локальных кластеров, так и из облака. Команда использовала отказоустойчивый контроллер и управляемые спотовые функции в SkyPilot, чтобы снизить затраты на обслуживание за счет использования более дешевых спотовых инстансов из нескольких облаков.

Оценка

Оценка чат-ботов с искусственным интеллектом может быть сложной задачей, поскольку она требует оценки понимания языка, рассуждений и понимания контекста. По мере того, как чат-боты с искусственным интеллектом становятся все более совершенными, текущих открытых тестов может оказаться недостаточно. Например, на набор данных для оценки, используемый в Стэнфордской программе самообучения Alpaca, можно ответить с помощью современных чат-ботов, что затрудняет выявление людьми различий в производительности. Кроме того, создание новых тестов может быть дорогостоящим, и могут возникнуть проблемы с загрязнением данных обучения/тестирования.

Для решения этих проблем исследовательская группа предлагает систему оценки, основанную на GPT-4, для автоматизации оценки производительности чат-бота. Структура состоит из восьми категорий вопросов, включая проблемы Ферми, сценарии ролевых игр и задачи по кодированию/математике, предназначенные для проверки различных аспектов производительности чат-бота. Тщательно разрабатывая подсказки, GPT-4 генерирует разнообразные и сложные вопросы, с которыми борются базовые модели. Команда выбирает десять вопросов в каждой категории и собирает ответы от пяти чат-ботов, включая LLaMA, Alpaca, ChatGPT, Bard и Vicuna.

Затем команда просит GPT-4 оценить качество ответов чат-ботов на основе полезности, актуальности, точности и детализации. GPT-4 выдает относительно последовательные оценки и предоставляет подробные объяснения того, почему такие оценки присваиваются. Однако команда отмечает, что GPT-4 не очень хорошо справляется с задачами по кодированию/математике.

Тестирование викуньи

Вместе с исходным кодом исследование опубликовало демо-версию Vicuna-13B на https://chat.lmsys.org/.

В целом, эта структура оценки предлагает многообещающий подход к последовательной и автоматизированной оценке производительности чат-бота. Использование командой различных категорий вопросов и тщательная оперативная разработка подчеркивают потенциал этой структуры для выявления различий в производительности чат-бота, которые могут быть трудно различимы при оценке человеком.

Встречайте Vicuna: последняя модель ламы Meta, которая соответствует производительности ChatGPT

Модель была создана исследователями из Калифорнийского университета в Беркли, CMU, Стэнфорда и Калифорнийского университета в Сан-Диего.

Архитектура

Оценка

Тестирование викуньи

Вопросы по теме