QERL: BEYOND EFFICIENCY – QUANTIZATION-ENHANCED REINFORCEMENT LEARNING FOR LLMS
[
Статья] [
Код]
Введение
Все современные SOTA языковые модели в процедуре обучения так или иначе содержат RL в том или ином виде. Несмотря на то, что RL этап требует обычно меньше вычислений (есть работы, которые предлагают сразу с RL-я стартовать) по сравнению с претрейном, он все равно может быть достаточно дорогим, чтобы был соблазн на нем сэкономить.
В разбираемой работе авторы предлагают обучать квантизованную модель с LoRA адаптером, и якобы почти не теряют в качестве по сравнению с полным тюном, ускоряют итерации обучения, а еще на выходе имеют более компактную модель.
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram