Сила квантования для запуска ИИ на вашем компьютере
На Medium я в основном обсуждал QLoRa для запуска больших языковых моделей (LLM) на потребительском оборудовании.
Но QLoRa в основном предлагалась для того, чтобы сделать доводку более доступной. Это не лучший вариант для логического вывода, если ваша модель уже настроена. Для этого сценария гораздо больше подходит GPTQ.
GPTQ в нескольких словах
GPTQ (Frantar et al., 2023) — алгоритм квантования для LLM. Вы можете рассматривать это как способ сжатия LLM.
Версия Llama 2 с 7 миллиардами параметров весит 13,5 ГБ. После 4-битного квантования с GPTQ его размер падает до 3,6 ГБ, т. е. 26,6% от исходного размера.
Загрузка LLM с параметрами 7B невозможна на потребительском оборудовании без квантования. Даже при использовании только ЦП вам все равно потребуется не менее 32 ГБ ОЗУ. Это больше, чем у большинства стандартных компьютеров. Он также не подходит для экземпляра Google Colab Pro.
Но после квантования мы можем загрузить модель на большинстве машин, причем без существенного падения производительности модели (недоумения).
Но в любом случае, разве нам не нужно загружать модель в память перед ее квантованием?
Нет. GPTQ — очень умный (и сложный) алгоритм. Он не требует загрузки всей модели, он обрабатывает модель на уровне слоя, поэтому ему не нужно хранить всю модель в памяти.
GPTQ предназначен для LLM, которые не будут проходить дальнейшее обучение/тонкую настройку. Таким образом, GPTQ очень подходит для моделей чата, которые уже настроены на наборы данных инструкций.
Получение веса ламы 2
Llama 2 не является открытым LLM. Вы должны зарегистрироваться, чтобы получить его от Meta. Форма для его получения есть. Вы должны получить электронное письмо от Meta в течение часа.
Затем, поскольку я буду использовать Hugging Face Hub, вам также потребуется создать учетную запись Hugging Face. Адрес электронной почты, который вы использовали для создания этой учетной записи, должен совпадать с адресом электронной почты, который вы использовали для получения весов Llama 2.
Затем перейдите в карточку модели Лама 2 и следуйте инструкциям (вы должны быть авторизованы в своей учетной записи…