Публикации по теме 'quantization'


Получите дополнительное ускорение логического вывода LLM с помощью целочисленного квантования в PeriFlow
В FriendliAI нашим главным приоритетом является предоставление системы обслуживания с максимальной производительностью. Мы рады представить новую функцию, которая повышает производительность обслуживания за счет использования целочисленного квантования, созданного поверх PeriFlow Serving Engine. Что такое целочисленное квантование? Большие языковые модели содержат огромное количество операций с более чем миллиардами параметров. Среди операций «матмуль» (умножение матриц) занимает..