avatar
(sci)Berloga Science
Переслано от канала
15.10.2025 23:23
QERL: BEYOND EFFICIENCY – QUANTIZATION-ENHANCED REINFORCEMENT LEARNING FOR LLMS
[Статья] [Код]

Введение

Все современные SOTA языковые модели в процедуре обучения так или иначе содержат RL в том или ином виде. Несмотря на то, что RL этап требует обычно меньше вычислений (есть работы, которые предлагают сразу с RL-я стартовать) по сравнению с претрейном, он все равно может быть достаточно дорогим, чтобы был соблазн на нем сэкономить.

В разбираемой работе авторы предлагают обучать квантизованную модель с LoRA адаптером, и якобы почти не теряют в качестве по сравнению с полным тюном, ускоряют итерации обучения, а еще на выходе имеют более компактную модель.
13 759

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram