Квантование Llama 2 с помощью GTPQ для быстрого вывода на вашем компьютере

Сила квантования для запуска ИИ на вашем компьютере

На Medium я в основном обсуждал QLoRa для запуска больших языковых моделей (LLM) на потребительском оборудовании.

Но QLoRa в основном предлагалась для того, чтобы сделать доводку более доступной. Это не лучший вариант для логического вывода, если ваша модель уже настроена. Для этого сценария гораздо больше подходит GPTQ.

GPTQ в нескольких словах

GPTQ (Frantar et al., 2023) — алгоритм квантования для LLM. Вы можете рассматривать это как способ сжатия LLM.

Версия Llama 2 с 7 миллиардами параметров весит 13,5 ГБ. После 4-битного квантования с GPTQ его размер падает до 3,6 ГБ, т. е. 26,6% от исходного размера.

Загрузка LLM с параметрами 7B невозможна на потребительском оборудовании без квантования. Даже при использовании только ЦП вам все равно потребуется не менее 32 ГБ ОЗУ. Это больше, чем у большинства стандартных компьютеров. Он также не подходит для экземпляра Google Colab Pro.

Но после квантования мы можем загрузить модель на большинстве машин, причем без существенного падения производительности модели (недоумения).

Но в любом случае, разве нам не нужно загружать модель в память перед ее квантованием?

Нет. GPTQ — очень умный (и сложный) алгоритм. Он не требует загрузки всей модели, он обрабатывает модель на уровне слоя, поэтому ему не нужно хранить всю модель в памяти.

GPTQ предназначен для LLM, которые не будут проходить дальнейшее обучение/тонкую настройку. Таким образом, GPTQ очень подходит для моделей чата, которые уже настроены на наборы данных инструкций.

Получение веса ламы 2

Llama 2 не является открытым LLM. Вы должны зарегистрироваться, чтобы получить его от Meta. Форма для его получения есть. Вы должны получить электронное письмо от Meta в течение часа.

Затем, поскольку я буду использовать Hugging Face Hub, вам также потребуется создать учетную запись Hugging Face. Адрес электронной почты, который вы использовали для создания этой учетной записи, должен совпадать с адресом электронной почты, который вы использовали для получения весов Llama 2.

Затем перейдите в карточку модели Лама 2 и следуйте инструкциям (вы должны быть авторизованы в своей учетной записи…

Квантование Llama 2 с помощью GTPQ для быстрого вывода на вашем компьютере

Сила квантования для запуска ИИ на вашем компьютере

GPTQ в нескольких словах

Получение веса ламы 2

Вопросы по теме