Содержание
1 — Введение LLM
2 — Открытые источники LLM
3 - Список моделей больших языков с открытым исходным кодом (LLM)
Внедрение LLM
Большие языковые модели (LLM) — это тип искусственного интеллекта (ИИ), который обучается на массивных наборах данных текста и кода. Их можно использовать для различных задач, включая генерацию текста, перевод языков и написание различного творческого контента.
LLM работают, изучая статистические отношения между словами и фразами в языке. Это позволяет им генерировать текст, который является грамматически правильным и семантически значимым.
LLM с открытым исходным кодом
В последние годы наблюдается растущий интерес к LLM с открытым исходным кодом. Эти модели выпускаются по лицензиям с открытым исходным кодом, что означает, что любой может использовать, модифицировать и распространять их. Это позволило исследователям, разработчикам и предприятиям экспериментировать с LLM и разрабатывать для них новые приложения.
Существует ряд преимуществ использования LLM с открытым исходным кодом. Во-первых, они часто более доступны, чем проприетарные LLM. Во-вторых, они более прозрачны, а это значит, что исследователи могут изучить, как они работают и как принимают решения. В-третьих, они более гибкие, а значит, их можно настраивать под разные задачи.
Существуют также некоторые проблемы, связанные с использованием LLM с открытым исходным кодом. Во-первых, они могут быть сложными в использовании и обучении. Во-вторых, их запуск может быть дорогостоящим в вычислительном отношении. В-третьих, их можно использовать в злонамеренных целях, например, для создания поддельных новостей или спама.
Несмотря на эти проблемы, LLM с открытым исходным кодом могут революционизировать то, как мы взаимодействуем с компьютерами. У них есть возможность автоматизировать задачи, которые в настоящее время выполняются людьми, и их можно использовать для создания новых и инновационных приложений.
Список моделей больших языков с открытым исходным кодом (LLM)
В последнее время мир обработки естественного языка (NLP) стал свидетелем феноменального всплеска разработки и выпуска моделей больших языков (LLM). Эту тенденцию можно в значительной степени объяснить громким успехом таких моделей, как ChatGPT, которые продемонстрировали замечательные возможности в понимании и генерации текста, похожего на человеческий. Однако монополия LLM в руках нескольких технологических гигантов вызвала растущий спрос на альтернативы с открытым исходным кодом. В ответ сообщество разработчиков открытого исходного кода приняло вызов и активно создает свои собственные LLM. Эти LLM с открытым исходным кодом предлагают несколько преимуществ, таких как более быстрый темп разработки, более низкие затраты на согласование и повышенную прозрачность.
С таким обширным и динамичным ландшафтом LLM с открытым исходным кодом становится все труднее отслеживать все модели, выпускаемые ежедневно. Таким образом, эта статья призвана предоставить полный список LLM с открытым исходным кодом, доступных в настоящее время, а также информацию об их вариантах лицензирования и репозиториях исходного кода. Давайте погрузимся в мир LLM с открытым исходным кодом!
ПАРУС 7Б
Описание: Поиск расширенного обучения на основе модели LLaMa.
Параметры: 7B
Лицензия: лицензия GPL-3.0
Дата выпуска: 25 мая 2023 г.
Github: Исходный код
Статья:ПАРУС — Поиск расширенного обучения
Гуанако
Описание: модель LLM выпущена с эффективным подходом к тонкой настройке QLoRA
Параметры:65B
Лицензия: MIT
Дата выпуска:24 мая 2023 г.
Github: Исходный код
Документ: QLoRA — Эффективная тонкая настройка квантованных LLM
РМКВ
Описание: RNN с производительностью LLM на уровне трансформатора
Параметры: 100M–14B
Лицензия: Apache 2.0
Дата выпуска: 15 мая 2023 г.
Github: Исходный код
Статья: Масштабирование RNN для 1.5B и Reach Transformer LM Performance
МПТ-7Б
Описание: модели серии MosaicML Foundation
Параметры:7B
Лицензия: Apache 2.0
Release Дата: 5 мая 2023 г.
Github: Исходный код
Документ: MPT-7B — A Новый стандарт для коммерческих LLM с открытым исходным кодом
OpenLLaMa
Описание: Еще одна копия LLaMA 7B от Meta AI с открытым исходным кодом, обученная на наборе данных RedPajama.
Параметры:3,7B
Лицензия: Apache 2.0
Дата выпуска:5 мая 2023 г.
Github: Исходный код
Документ: Познакомьтесь с OpenLLaMA — открытой репродукцией большой языковой модели Meta AI LLaMA
RedPajama-INCITE
Описание: Настроенные инструкции и модели чата на основе модели Pythia, обученной на наборе данных RedPajama.
Параметры: 3B, 7B
Лицензия: Apache 2.0
Дата выпуска: 5 мая 2023 г.
Github: Исходный код
Документ: Семейство моделей RedPajama-INCITE, включая базовые модели, модели с инструкциями и модели чата
h2oGPT
Описание: структура тонкой настройки H2O и пользовательский интерфейс чат-бота с документами, вопросами и ответами
Параметры: 12B, 30B
Лицензия : Apache 2.0
Дата выпуска: 3 мая 2023 г.
Github: Исходный код
Документ :Создание лучшей в мире широкоязычной модели с открытым исходным кодом: путешествие H2O.ai
FastChat-T5
Описание: Чат-бот, обученный тонкой настройкой Flan-t5-xl на общих разговорах пользователей, собранных из ShareGPT
Параметры: 3B
Лицензия : Apache 2.0
Дата выпуска: 28 апреля 2023 г.
Github: Исходный код
Бумага :FastChat-T5 — наш компактный коммерческий чат-бот!
GPT4Все
Описание: Экосистема для обучения и развертывания мощных и настраиваемых LLM
Параметры: 7–13B
Лицензия: MIT
Дата выпуска: 24 апреля 2023 г.
Github: Исходный код
Статья: GPT4All: An экосистема современных больших языковых моделей с открытым исходным кодом.
МиниГПТ-4
Описание: Визуальная модель LLM на основе BLIP-2 и Vicuna LLM
Параметры:13B
Лицензия: BSD-3 -Clause
Дата выпуска: 20 апреля 2023 г.
Github: Исходный код
Документ: MiniGPT-4 — Улучшение понимания визуального языка с помощью
расширенных моделей больших языков
СтабильныйLM
Описание: Серия моделей Stability AI LLM
Параметры:7B
Лицензия: CC BY-NC-SA-4.0
Дата выпуска:19 апреля 2023 г.
Github: Исходный код
Документ: Stability AI запускает первый набор языковых моделей StableLM
БлумZ
Описание: Межъязыковое обобщение с помощью тонкой настройки многозадачности
Параметры: 176B
Лицензия: Apache 2.0
Дата выпуска: 19 апреля 2023 г.
Github: Исходный код
Статья: «Межъязыковое обобщение через многозадачность Тонкая настройка"
Долли
Описание: Pythia 12B LLM, прошедшее обучение на платформе Databricks ML
Параметры: 12B
Лицензия: Apache 2.0< br /> Дата выпуска: 12 апреля 2023 г.
Github: Исходный код
Документ: Free Dolly — Представляем Первый в мире LLM с действительно открытыми инструкциями
Бэйз Чат-бот
Описание: Модель чата с открытым исходным кодом на основе LLaMa
Параметры:30B
Лицензия: лицензия GPL-3.0
Дата выпуска:10 апреля 2023 г.
Github: Исходный код
Статья: Baize — Open -Модель исходного чата с параметрически эффективной настройкой данных самочата
ColossalЧат
Описание: Полный конвейер RLHF, выпущенный ColossalAI с открытым исходным кодом
Параметры:Н/Д
Лицензия: Apache 2.0
Дата выпуска: 6 апреля 2023 г.
Github: Исходный код
Документ: ColossalChat — Решение с открытым исходным кодом для клонирования ChatGPT с полным конвейером RLHF
Лит ЛЛаМа
Описание: Реализация LLaMA с открытым исходным кодом от Lightning AI
Параметры:13B
Лицензия: Apache 2.0< br /> Дата выпуска:4 апреля 2023 г.
Github: Исходный код
Статья: Почему мы создаем Лит-ЛЛаМА
Cerebras-GPT
Описание: семейство открытых, эффективных вычислительных моделей для больших языков
Параметры:111M-13B
Лицензия: Apache 2.0
Дата выпуска: 28 марта 2023 г.
Github: Исходный код
Документ: Cerebras-GPT — Open Compute-Optimal Language Models
Обучение на кластере Cerebras Wafer-Scale
Открытый фламинго
Описание: реализация модели Deepmind Flamingo с открытым исходным кодом
Параметры: 9B
Лицензия: лицензия MIT
Дата выпуска: 28 марта 2023 г.
Github: https://github.com/mlfoundations/open_flamingo
Документ: Openflamingo — фреймворк с открытым исходным кодом для обучения языковых моделей с помощью контекстного обучения
Чат ГЛМ
Описание: Открытая двуязычная (английский и китайский) двунаправленная плотная предварительно обученная модель
Параметры: 6B-130B
Лицензия: Apache 2.0
Дата выпуска: 23 марта 2023 г.
Github: Исходный код
Документ: GLM-130B: открытая двуязычная предварительно обученная модель
DLite
Описание: Модель следования инструкциям от AI Squared путем точной настройки самой маленькой модели GPT-2 в наборе данных Alpaca
Параметры: 124M
Лицензия: Apache 2.0
Дата выпуска: 16 марта 2023 г.
Github: Исходный код
Документ:Представляем DLite, облегченную модель, похожую на ChatGPT, на основе Dolly
Альпака 7Б
Описание: Модель LLaMA, соответствующая инструкциям Стэнфорда
Параметры:7B
Лицензия: Apache 2.0
Дата выпуска: 13 марта 2023 г.
Github: Исходный код
Документ: Альпака — надежная воспроизводимая инструкция -Следующая модель»
Флан UL2
Описание: Модель Flan 20B была обучена поверх предварительно обученной контрольной точки UL2.
Параметры: 20B
Лицензия: Лицензия MIT
Дата выпуска: 3 марта 2023 г.
Github: Исходный код
Документ: Новый Flan 20B с открытым исходным кодом и UL2
Флан-Т5
Описание: Инструкция по тонкой настройке T5 на различных наборах данных для повышения удобства использования предварительно обученных языковых моделей
Параметры: 60M–11B
Лицензия: Apache 2.0
Дата выпуска: 1 февраля 2023 г.
Github: Исходный код
Документ: Масштабирование языковых моделей с тонкой настройкой инструкций
Открыть помощник
Описание: Проект предназначен для предоставления всем доступа к великолепной языковой модели на основе чата.
Параметры:Н/Д
Лицензия: Apache 2.0
Дата выпуска:11 декабря 2022 г.
Github: Исходный код
Документ: Открытый помощник — помощник будущего
Галактика
Описание: Модель научного языка общего назначения, обученная на научных текстах
Параметры: 120M-120B
Лицензия: Apache 2.0
Дата выпуска: 16 ноября 2022 г.
Github: Исходный код
Документ: Галактика — Большая языковая модель для науки
Цвести
Описание: Крупнейшая многоязычная модель LM с открытым доступом от BigScience
Параметры: 176B
Лицензия: OpenRAIL-M v1
Дата выпуска: 9 ноября 2022 г.
Github: Исходный код
Статья: BLOOM — A 176B-Параметр Открытого Доступа Многоязычная
Языковая Модель
UL2
Описание: Unified Language Learner с открытым исходным кодом из исследования Google
Параметры: 20B
Лицензия: лицензия MIT
Дата выпуска: 3 ноября 2022 г.
Github: Исходный код
Статья:UL2 — Unifying Language Изучение парадигм
Tk-инструктировать
Описание: LLM от AllenAI, настроенный для решения многих задач НЛП по инструкции.
Параметры: 3,7B
Лицензия: Лицензия MIT
Дата выпуска: 24 октября 2022 г.
Github: Исходный код
Документ: СУПЕРЕСТЕСТВЕННЫЕ ИНСТРУКЦИИ:
Обобщение через декларативные инструкции по более чем 1600 задачам НЛП
ЯЛМ
Описание: Предобученный LLM от Яндекса для генерации и обработки текста
Параметры: 100B
Лицензия: Apache 2.0
Дата выпуска: 19 июня 2022 г.
Github: Исходный код
Документ:Яндекс Open- Источники Модель YaLM со 100 миллиардами параметров
ОПТ
Описание: Серия каузальных LLM с открытым исходным кодом, выпущенных MetaAI, которые работают аналогично GPT-3
Параметры: 125M-175B
Лицензия : Лицензия MIT
Дата выпуска: 2 мая 2022 г.
Github: Исходный код
Документ :OPT — открытые предварительно обученные языковые модели Transformer
GPT-NeoX
Описание: версия GPT с открытым исходным кодом от Eluether AI с меньшим количеством параметров
Параметры: 20B
Лицензия: Apache 2.0
Дата выпуска: 14 апреля 2022 г.
Github: Исходный код
Документ: GPT-NeoX -20B — Модель авторегрессионного языка с открытым исходным кодом
GPT-J
Описание: версия GPT с открытым исходным кодом от Eluether AI с меньшим количеством параметров
Параметры: 6B
Лицензия: Apache 2.0
Дата выпуска:4 июня 2021 г.
Github: Исходный код
Документ: GPT-J -6B: Трансформатор на основе 6B JAX
Выключатель
Описание: Языковая модель искусственного интеллекта с триллионом параметров, разработанная Google
Параметры: 1.6T
Лицензия: лицензия MIT
Дата выпуска: 16 февраля 2021 г.
Github: Исходный код
Документ:Switch Transformers : Масштабирование до моделей с триллионом параметров
с простой и эффективной разреженностью
Старые модели
XLNet
Описание: Обобщенная авторегрессионная модель предварительного обучения, которая перебирает все перестановки порядка факторизации.
Параметры: 340M
Лицензия: Apache 2.0
Дата выпуска: 19 июня 2019 г.
Github: Исходный код
Документ: XLNet: обобщенная авторегрессионная предварительная тренировка для понимания языка
ГПТ-2
Описание: Вторая итерация языковой модели с использованием архитектуры Transformer от OpenAI
Параметры: 1,5 Б
Лицензия: MIT Лицензия
Дата выпуска: 4 февраля 2019 г.
Github: Исходный код
Документ: Языковые модели — это многозадачные учащиеся без присмотра
БЕРТ
Описание: Модель языкового представления с базой Transformer и моделированием маскированного языка (MLM) в качестве цели предварительного обучения.
Параметры: 340M
Лицензия : Apache 2.0
Дата выпуска:11 октября 2018 г.
Github: Исходный код
Документ :BERT — предварительное обучение глубоких двунаправленных преобразователей для понимания языка
ГПТ-1
Описание: первая версия языковой модели с использованием архитектуры Transformer от OpenAI
Параметры: 117M
Лицензия: лицензия MIT
Дата выпуска: 11 июня 2018 г.
Github: исходный код
Статья:Улучшение понимания языка, автор Генеративное предварительное обучение
Чтобы узнать больше о LLM, подпишитесь на мой канал
Что означают Лицензии?
- Apache 2.0: лицензия Apache 2.0 — это разрешительная лицензия с открытым исходным кодом, которая разрешает бесплатное использование, модификацию и распространение исходного кода модели. Пользователям также разрешено сублицензировать модель на разных условиях.
- Лицензия MIT: лицензия MIT — это еще одна разрешительная лицензия с открытым исходным кодом, которая дает пользователям свободу использовать, изменять и распространять исходный код модели без каких-либо ограничений. Он широко используется в сообществе открытого исходного кода благодаря своей простоте и гибкости.
- Лицензия GPL-3.0: Стандартная общественная лицензия GNU 3.0 — это лицензия с авторским левом, которая требует, чтобы любые производные работы или модификации модели распространялись на тех же условиях лицензии. Он подчеркивает принципы программного обеспечения с открытым исходным кодом и гарантирует, что код остается в свободном доступе для общественности.
- Лицензия BSD-3-Clause: Лицензия BSD-3-Clause — это разрешающая лицензия, которая позволяет пользователям использовать, изменять и распространять исходный код модели с дополнительным условием, что должны быть указаны первоначальные авторы.
- Лицензия CC BY-NC-SA-4.0: Авторство Creative Commons
-NonCommercial-ShareAlike 4.0 International License позволяет пользователям использовать, модифицировать и распространять исходный код модели в некоммерческих целях, если они предоставляют соответствующую атрибуцию и используют ту же лицензию при распространении своей производной работы.
В заключение следует отметить, что среда больших языковых моделей с открытым исходным кодом быстро развивается, и сообщество разработчиков открытого исходного кода регулярно выпускает множество моделей. Эти модели предлагают разработчикам, исследователям и энтузиастам прекрасную возможность экспериментировать с передовыми языковыми технологиями без ограничений проприетарных систем. По мере того, как все больше организаций и отдельных лиц вносят свой вклад в разработку этих моделей, мы можем ожидать появления еще более мощных, доступных и инновационных языковых моделей, которые определят будущее обработки естественного языка.