Рост LLM с открытым исходным кодом и его список

Содержание

1 — Введение LLM

2 — Открытые источники LLM

3 - Список моделей больших языков с открытым исходным кодом (LLM)

Внедрение LLM

Большие языковые модели (LLM) — это тип искусственного интеллекта (ИИ), который обучается на массивных наборах данных текста и кода. Их можно использовать для различных задач, включая генерацию текста, перевод языков и написание различного творческого контента.

LLM работают, изучая статистические отношения между словами и фразами в языке. Это позволяет им генерировать текст, который является грамматически правильным и семантически значимым.

LLM с открытым исходным кодом

В последние годы наблюдается растущий интерес к LLM с открытым исходным кодом. Эти модели выпускаются по лицензиям с открытым исходным кодом, что означает, что любой может использовать, модифицировать и распространять их. Это позволило исследователям, разработчикам и предприятиям экспериментировать с LLM и разрабатывать для них новые приложения.

Существует ряд преимуществ использования LLM с открытым исходным кодом. Во-первых, они часто более доступны, чем проприетарные LLM. Во-вторых, они более прозрачны, а это значит, что исследователи могут изучить, как они работают и как принимают решения. В-третьих, они более гибкие, а значит, их можно настраивать под разные задачи.

Существуют также некоторые проблемы, связанные с использованием LLM с открытым исходным кодом. Во-первых, они могут быть сложными в использовании и обучении. Во-вторых, их запуск может быть дорогостоящим в вычислительном отношении. В-третьих, их можно использовать в злонамеренных целях, например, для создания поддельных новостей или спама.

Несмотря на эти проблемы, LLM с открытым исходным кодом могут революционизировать то, как мы взаимодействуем с компьютерами. У них есть возможность автоматизировать задачи, которые в настоящее время выполняются людьми, и их можно использовать для создания новых и инновационных приложений.

Список моделей больших языков с открытым исходным кодом (LLM)

В последнее время мир обработки естественного языка (NLP) стал свидетелем феноменального всплеска разработки и выпуска моделей больших языков (LLM). Эту тенденцию можно в значительной степени объяснить громким успехом таких моделей, как ChatGPT, которые продемонстрировали замечательные возможности в понимании и генерации текста, похожего на человеческий. Однако монополия LLM в руках нескольких технологических гигантов вызвала растущий спрос на альтернативы с открытым исходным кодом. В ответ сообщество разработчиков открытого исходного кода приняло вызов и активно создает свои собственные LLM. Эти LLM с открытым исходным кодом предлагают несколько преимуществ, таких как более быстрый темп разработки, более низкие затраты на согласование и повышенную прозрачность.

С таким обширным и динамичным ландшафтом LLM с открытым исходным кодом становится все труднее отслеживать все модели, выпускаемые ежедневно. Таким образом, эта статья призвана предоставить полный список LLM с открытым исходным кодом, доступных в настоящее время, а также информацию об их вариантах лицензирования и репозиториях исходного кода. Давайте погрузимся в мир LLM с открытым исходным кодом!

ПАРУС 7Б

Описание: Поиск расширенного обучения на основе модели LLaMa.
Параметры: 7B
Лицензия: лицензия GPL-3.0
Дата выпуска: 25 мая 2023 г.
Github: Исходный код
Статья:ПАРУС — Поиск расширенного обучения

Гуанако

Описание: модель LLM выпущена с эффективным подходом к тонкой настройке QLoRA
Параметры:65B
Лицензия: MIT
Дата выпуска:24 мая 2023 г.
Github: Исходный код
Документ: QLoRA — Эффективная тонкая настройка квантованных LLM

РМКВ

Описание: RNN с производительностью LLM на уровне трансформатора
Параметры: 100M–14B
Лицензия: Apache 2.0
Дата выпуска: 15 мая 2023 г.
Github: Исходный код
Статья: Масштабирование RNN для 1.5B и Reach Transformer LM Performance

МПТ-7Б

Описание: модели серии MosaicML Foundation
Параметры:7B
Лицензия: Apache 2.0
Release Дата: 5 мая 2023 г.
Github: Исходный код
Документ: MPT-7B — A Новый стандарт для коммерческих LLM с открытым исходным кодом

OpenLLaMa

Описание: Еще одна копия LLaMA 7B от Meta AI с открытым исходным кодом, обученная на наборе данных RedPajama.
Параметры:3,7B
Лицензия: Apache 2.0
Дата выпуска:5 мая 2023 г.
Github: Исходный код
Документ: Познакомьтесь с OpenLLaMA — открытой репродукцией большой языковой модели Meta AI LLaMA

RedPajama-INCITE

Описание: Настроенные инструкции и модели чата на основе модели Pythia, обученной на наборе данных RedPajama.
Параметры: 3B, 7B
Лицензия: Apache 2.0
Дата выпуска: 5 мая 2023 г.
Github: Исходный код
Документ: Семейство моделей RedPajama-INCITE, включая базовые модели, модели с инструкциями и модели чата

h2oGPT

Описание: структура тонкой настройки H2O и пользовательский интерфейс чат-бота с документами, вопросами и ответами
Параметры: 12B, 30B
Лицензия : Apache 2.0
Дата выпуска: 3 мая 2023 г.
Github: Исходный код
Документ :Создание лучшей в мире широкоязычной модели с открытым исходным кодом: путешествие H2O.ai

FastChat-T5

Описание: Чат-бот, обученный тонкой настройкой Flan-t5-xl на общих разговорах пользователей, собранных из ShareGPT
Параметры: 3B
Лицензия : Apache 2.0
Дата выпуска: 28 апреля 2023 г.
Github: Исходный код
Бумага :FastChat-T5 — наш компактный коммерческий чат-бот!

GPT4Все

Описание: Экосистема для обучения и развертывания мощных и настраиваемых LLM
Параметры: 7–13B
Лицензия: MIT
Дата выпуска: 24 апреля 2023 г.
Github: Исходный код
Статья: GPT4All: An экосистема современных больших языковых моделей с открытым исходным кодом.

МиниГПТ-4

Описание: Визуальная модель LLM на основе BLIP-2 и Vicuna LLM
Параметры:13B
Лицензия: BSD-3 -Clause
Дата выпуска: 20 апреля 2023 г.
Github: Исходный код
Документ: MiniGPT-4 — Улучшение понимания визуального языка с помощью
расширенных моделей больших языков

СтабильныйLM

Описание: Серия моделей Stability AI LLM
Параметры:7B
Лицензия: CC BY-NC-SA-4.0
Дата выпуска:19 апреля 2023 г.
Github: Исходный код
Документ: Stability AI запускает первый набор языковых моделей StableLM

БлумZ

Описание: Межъязыковое обобщение с помощью тонкой настройки многозадачности
Параметры: 176B
Лицензия: Apache 2.0
Дата выпуска: 19 апреля 2023 г.
Github: Исходный код
Статья: «Межъязыковое обобщение через многозадачность Тонкая настройка"

Долли

Описание: Pythia 12B LLM, прошедшее обучение на платформе Databricks ML
Параметры: 12B
Лицензия: Apache 2.0< br /> Дата выпуска: 12 апреля 2023 г.
Github: Исходный код
Документ: Free Dolly — Представляем Первый в мире LLM с действительно открытыми инструкциями

Бэйз Чат-бот

Описание: Модель чата с открытым исходным кодом на основе LLaMa
Параметры:30B
Лицензия: лицензия GPL-3.0
Дата выпуска:10 апреля 2023 г.
Github: Исходный код
Статья: Baize — Open -Модель исходного чата с параметрически эффективной настройкой данных самочата

ColossalЧат

Описание: Полный конвейер RLHF, выпущенный ColossalAI с открытым исходным кодом
Параметры:Н/Д
Лицензия: Apache 2.0
Дата выпуска: 6 апреля 2023 г.
Github: Исходный код
Документ: ColossalChat — Решение с открытым исходным кодом для клонирования ChatGPT с полным конвейером RLHF

Лит ЛЛаМа

Описание: Реализация LLaMA с открытым исходным кодом от Lightning AI
Параметры:13B
Лицензия: Apache 2.0< br /> Дата выпуска:4 апреля 2023 г.
Github: Исходный код
Статья: Почему мы создаем Лит-ЛЛаМА

Cerebras-GPT

Описание: семейство открытых, эффективных вычислительных моделей для больших языков
Параметры:111M-13B
Лицензия: Apache 2.0
Дата выпуска: 28 марта 2023 г.
Github: Исходный код
Документ: Cerebras-GPT — Open Compute-Optimal Language Models
Обучение на кластере Cerebras Wafer-Scale

Открытый фламинго

Описание: реализация модели Deepmind Flamingo с открытым исходным кодом
Параметры: 9B
Лицензия: лицензия MIT
Дата выпуска: 28 марта 2023 г.
Github: https://github.com/mlfoundations/open_flamingo
Документ: Openflamingo — фреймворк с открытым исходным кодом для обучения языковых моделей с помощью контекстного обучения

Чат ГЛМ

Описание: Открытая двуязычная (английский и китайский) двунаправленная плотная предварительно обученная модель
Параметры: 6B-130B
Лицензия: Apache 2.0
Дата выпуска: 23 марта 2023 г.
Github: Исходный код
Документ: GLM-130B: открытая двуязычная предварительно обученная модель

DLite

Описание: Модель следования инструкциям от AI Squared путем точной настройки самой маленькой модели GPT-2 в наборе данных Alpaca
Параметры: 124M
Лицензия: Apache 2.0
Дата выпуска: 16 марта 2023 г.
Github: Исходный код
Документ:Представляем DLite, облегченную модель, похожую на ChatGPT, на основе Dolly

Альпака 7Б

Описание: Модель LLaMA, соответствующая инструкциям Стэнфорда
Параметры:7B
Лицензия: Apache 2.0
Дата выпуска: 13 марта 2023 г.
Github: Исходный код
Документ: Альпака — надежная воспроизводимая инструкция -Следующая модель»

Флан UL2

Описание: Модель Flan 20B была обучена поверх предварительно обученной контрольной точки UL2.
Параметры: 20B
Лицензия: Лицензия MIT
Дата выпуска: 3 марта 2023 г.
Github: Исходный код
Документ: Новый Flan 20B с открытым исходным кодом и UL2

Флан-Т5

Описание: Инструкция по тонкой настройке T5 на различных наборах данных для повышения удобства использования предварительно обученных языковых моделей
Параметры: 60M–11B
Лицензия: Apache 2.0
Дата выпуска: 1 февраля 2023 г.
Github: Исходный код
Документ: Масштабирование языковых моделей с тонкой настройкой инструкций

Открыть помощник

Описание: Проект предназначен для предоставления всем доступа к великолепной языковой модели на основе чата.
Параметры:Н/Д
Лицензия: Apache 2.0
Дата выпуска:11 декабря 2022 г.
Github: Исходный код
Документ: Открытый помощник — помощник будущего

Галактика

Описание: Модель научного языка общего назначения, обученная на научных текстах
Параметры: 120M-120B
Лицензия: Apache 2.0
Дата выпуска: 16 ноября 2022 г.
Github: Исходный код
Документ: Галактика — Большая языковая модель для науки

Цвести

Описание: Крупнейшая многоязычная модель LM с открытым доступом от BigScience
Параметры: 176B
Лицензия: OpenRAIL-M v1
Дата выпуска: 9 ноября 2022 г.
Github: Исходный код
Статья: BLOOM — A 176B-Параметр Открытого Доступа Многоязычная
Языковая Модель

UL2

Описание: Unified Language Learner с открытым исходным кодом из исследования Google
Параметры: 20B
Лицензия: лицензия MIT
Дата выпуска: 3 ноября 2022 г.
Github: Исходный код
Статья:UL2 — Unifying Language Изучение парадигм

Tk-инструктировать

Описание: LLM от AllenAI, настроенный для решения многих задач НЛП по инструкции.
Параметры: 3,7B
Лицензия: Лицензия MIT
Дата выпуска: 24 октября 2022 г.
Github: Исходный код
Документ: СУПЕРЕСТЕСТВЕННЫЕ ИНСТРУКЦИИ:
Обобщение через декларативные инструкции по более чем 1600 задачам НЛП

ЯЛМ

Описание: Предобученный LLM от Яндекса для генерации и обработки текста
Параметры: 100B
Лицензия: Apache 2.0
Дата выпуска: 19 июня 2022 г.
Github: Исходный код
Документ:Яндекс Open- Источники Модель YaLM со 100 миллиардами параметров

ОПТ

Описание: Серия каузальных LLM с открытым исходным кодом, выпущенных MetaAI, которые работают аналогично GPT-3
Параметры: 125M-175B
Лицензия : Лицензия MIT
Дата выпуска: 2 мая 2022 г.
Github: Исходный код
Документ :OPT — открытые предварительно обученные языковые модели Transformer

GPT-NeoX

Описание: версия GPT с открытым исходным кодом от Eluether AI с меньшим количеством параметров
Параметры: 20B
Лицензия: Apache 2.0
Дата выпуска: 14 апреля 2022 г.
Github: Исходный код
Документ: GPT-NeoX -20B — Модель авторегрессионного языка с открытым исходным кодом

GPT-J

Описание: версия GPT с открытым исходным кодом от Eluether AI с меньшим количеством параметров
Параметры: 6B
Лицензия: Apache 2.0
Дата выпуска:4 июня 2021 г.
Github: Исходный код
Документ: GPT-J -6B: Трансформатор на основе 6B JAX

Выключатель

Описание: Языковая модель искусственного интеллекта с триллионом параметров, разработанная Google
Параметры: 1.6T
Лицензия: лицензия MIT
Дата выпуска: 16 февраля 2021 г.
Github: Исходный код
Документ:Switch Transformers : Масштабирование до моделей с триллионом параметров
с простой и эффективной разреженностью

Старые модели

XLNet

Описание: Обобщенная авторегрессионная модель предварительного обучения, которая перебирает все перестановки порядка факторизации.
Параметры: 340M
Лицензия: Apache 2.0
Дата выпуска: 19 июня 2019 г.
Github: Исходный код
Документ: XLNet: обобщенная авторегрессионная предварительная тренировка для понимания языка

ГПТ-2

Описание: Вторая итерация языковой модели с использованием архитектуры Transformer от OpenAI
Параметры: 1,5 Б
Лицензия: MIT Лицензия
Дата выпуска: 4 февраля 2019 г.
Github: Исходный код
Документ: Языковые модели — это многозадачные учащиеся без присмотра

БЕРТ

Описание: Модель языкового представления с базой Transformer и моделированием маскированного языка (MLM) в качестве цели предварительного обучения.
Параметры: 340M
Лицензия : Apache 2.0
Дата выпуска:11 октября 2018 г.
Github: Исходный код
Документ :BERT — предварительное обучение глубоких двунаправленных преобразователей для понимания языка

ГПТ-1

Описание: первая версия языковой модели с использованием архитектуры Transformer от OpenAI
Параметры: 117M
Лицензия: лицензия MIT
Дата выпуска: 11 июня 2018 г.
Github: исходный код
Статья:Улучшение понимания языка, автор Генеративное предварительное обучение

Чтобы узнать больше о LLM, подпишитесь на мой канал

Маникант
Добро пожаловать на мой канал YouTube! Я ваш ведущий Manikanth и специалист по данным с более чем 5-летним опытом работы в…www.youtube.com

Что означают Лицензии?

- Apache 2.0: лицензия Apache 2.0 — это разрешительная лицензия с открытым исходным кодом, которая разрешает бесплатное использование, модификацию и распространение исходного кода модели. Пользователям также разрешено сублицензировать модель на разных условиях.

- Лицензия MIT: лицензия MIT — это еще одна разрешительная лицензия с открытым исходным кодом, которая дает пользователям свободу использовать, изменять и распространять исходный код модели без каких-либо ограничений. Он широко используется в сообществе открытого исходного кода благодаря своей простоте и гибкости.

- Лицензия GPL-3.0: Стандартная общественная лицензия GNU 3.0 — это лицензия с авторским левом, которая требует, чтобы любые производные работы или модификации модели распространялись на тех же условиях лицензии. Он подчеркивает принципы программного обеспечения с открытым исходным кодом и гарантирует, что код остается в свободном доступе для общественности.

- Лицензия BSD-3-Clause: Лицензия BSD-3-Clause — это разрешающая лицензия, которая позволяет пользователям использовать, изменять и распространять исходный код модели с дополнительным условием, что должны быть указаны первоначальные авторы.

- Лицензия CC BY-NC-SA-4.0: Авторство Creative Commons

-NonCommercial-ShareAlike 4.0 International License позволяет пользователям использовать, модифицировать и распространять исходный код модели в некоммерческих целях, если они предоставляют соответствующую атрибуцию и используют ту же лицензию при распространении своей производной работы.

В заключение следует отметить, что среда больших языковых моделей с открытым исходным кодом быстро развивается, и сообщество разработчиков открытого исходного кода регулярно выпускает множество моделей. Эти модели предлагают разработчикам, исследователям и энтузиастам прекрасную возможность экспериментировать с передовыми языковыми технологиями без ограничений проприетарных систем. По мере того, как все больше организаций и отдельных лиц вносят свой вклад в разработку этих моделей, мы можем ожидать появления еще более мощных, доступных и инновационных языковых моделей, которые определят будущее обработки естественного языка.