Введение в модели больших языков

– Большие языковые модели (LLM) – это часть глубокого обучения.
– LLM можно предварительно обучать и настраивать для конкретных целей.
– Курс охватывает варианты использования LLM, оперативную настройку и рекомендации Google. Инструменты разработки Gen AI.

Что такое большие языковые модели?

Определение больших языковых моделей

– Большие языковые модели относятся к большим языковым моделям общего назначения, которые можно предварительно обучить, а затем настроить для конкретных целей.
– Они обучаются для общих целей, чтобы решать общеязыковые задачи, такие как классификация текста, ответы на вопросы. , обобщение документов и генерация текстов для разных отраслей.
 — Затем модели можно адаптировать для решения конкретных задач в различных областях, таких как розничная торговля, финансы и развлечения, с использованием относительно небольшого размера наборов полевых данных.

Особенности больших языковых моделей

- "Большой" указывает на два значения: огромный размер набора обучающих данных (иногда в масштабе петабайт) и количество параметров (часто называемых гиперпараметрами).
- "Общее назначение" означает, что модели достаточны для решать общие проблемы за счет общности человеческого языка независимо от конкретных задач.
- Предварительное обучение большой языковой модели для общих целей с большим набором данных сопровождается ее тонкой настройкой для конкретных целей с гораздо меньшим набор данных.

Дрессировка собак и дрессировка LLM

Сравнение дрессировки собак и дрессировки LLM

- Базовых команд, таких как "сидеть", "подойди", "лечь" и "стоять", обычно достаточно для повседневной жизни при дрессировке собак.
- Однако специальные тренировки добавляются, если вам нужна специальная служебная собака, например, полицейская собака, собака-поводырь. , или охотничья собака.
- Точно так же большие языковые модели обучаются для общих целей для решения общих языковых задач. Затем их можно адаптировать для решения конкретных задач в различных областях с использованием относительно небольшого размера наборов полевых данных.

Преимущества больших языковых моделей

Преимущества использования больших языковых моделей

– Одну модель можно использовать для разных задач, включая языковой перевод, завершение предложений, классификацию текстов, ответы на вопросы и т. д.
 – Для больших языковых моделей требуется минимум данных для полевого обучения, если вы адаптируете их для решения конкретной задачи. Они обеспечивают достойную производительность даже при небольшом количестве данных для обучения предметной области.
— Производительность больших языковых моделей постоянно растет, когда вы добавляете больше данных и параметров.

Пример: PaLM

  • В апреле 2022 года Google выпустила модель PaLM (Pathways Language Model) с 540 миллиардами параметров, которая обеспечивает высочайшую производительность при выполнении нескольких языковых задач.
     – PaLM – это плотная модель преобразователя, состоящая только из декодера, которая использует новая система путей для эффективного обучения одной модели в нескольких модулях TPU V4.
    — Pathway — это новая архитектура искусственного интеллекта, которая будет обрабатывать множество задач одновременно и быстро изучать новые задачи. Система позволяет PaLM организовывать распределенные вычисления для ускорителей.

Введение в генеративный ИИ

Традиционное программирование против генеративного ИИ

– В традиционном программировании правила различения объектов жестко закодированы.
– В нейронных сетях изображения объектов могут использоваться для обучения сети их распознаванию.
– В генеративном ИИ пользователи могут генерировать свои собственный контент с использованием предварительно обученных моделей, таких как PaLM или LaMDA.

Быстрый дизайн в LLM Development

Быстрый дизайн против традиционной разработки ML

– Разработка LLM не требует специальных знаний или обучающих примеров.
– Разработка подсказок – это процесс создания четкой и информативной подсказки.
– Традиционная разработка машинного обучения требует учебных примеров и вычислительного времени/оборудования.

Генеративный контроль качества и контроль качества, основанный на предметной области

– Знание предметной области требуется для разработки моделей ответов на вопросы на основе конкретных областей, таких как поддержка клиентов или здравоохранение.
– Генеративные модели контроля качества не требуют знания предметной области, поскольку они генерируют свободный текст непосредственно на основе контекста.
– ChatGPT, чат-бот с большой языковой моделью, разработанный OpenAI, обеспечивает точные ответы благодаря быстрому дизайну.

Быстрый дизайн и быстрый инжиниринг

– Разработка подсказки включает в себя создание подсказки, адаптированной к конкретной задаче.
– Разработка подсказки включает создание подсказки, предназначенной для повышения производительности.
– Разработка подсказки необходима, а разработка подсказки необходима только для систем, требующих высокой производительности. точность или производительность.

Типы больших языковых моделей

  • Общие языковые модели предсказывают следующее слово на основе обучающих данных.
    – Модели, настроенные на инструкции, обучаются конкретным задачам и требуют подсказок, адаптированных к этим задачам.
    – Модели, настроенные на диалог, обучаются на разговорных данных и требуют подсказки, имитирующие разговор.

Диалоги и настройка для конкретных задач

Модели, настроенные на диалог

– Модели, настроенные на диалог, представляют собой особый случай моделей, настроенных на инструкции.
– Запросы обычно оформляются как вопросы к чат-боту.
– Ожидается, что настройка диалога будет происходить в контексте более длительного обратного и обратного -четвертый разговор.
 – Обычно лучше работает с естественными вопросительными формулировками.

Настройка для конкретных задач

– Vertex AI предоставляет базовые модели для конкретных задач для различных вариантов использования, таких как сбор мнений или выполнение анализа занятости.
– Настройка модели позволяет настраивать отклик модели на основе примеров задачи, которую вы хотите, чтобы модель выполняла. .
 – По сути, это процесс адаптации модели к новой области или набору пользовательских вариантов использования путем обучения модели новым данным.
 – Например, мы можем собирать обучающие данные и настраивать модель. специально для юридических или медицинских доменов.

Методы настройки с эффективным использованием параметров (PETM)

ПЭТМ

  • PETM — это методы настройки большой языковой модели на основе ваших собственных пользовательских данных без дублирования модели.
    — Сама базовая модель не изменяется. Вместо этого настраивается небольшое количество дополнительных слоев, которые можно включать и выключать во время логического вывода.

Полное видео: https://youtu.be/zizonToFXDs