(sci)Berloga Science (@sberlogasci): QERL: BEYOND EFFICIENCY – QUANTIZATION-ENHANCED REINFORCEMENT LEARNING FOR LLMS ] ] Введен…

QERL: BEYOND EFFICIENCY – QUANTIZATION-ENHANCED REINFORCEMENT LEARNING FOR LLMS
[Статья] [Код]

Введение

Все современные SOTA языковые модели в процедуре обучения так или иначе содержат RL в том или ином виде. Несмотря на то, что RL этап требует обычно меньше вычислений (есть работы, которые предлагают сразу с RL-я стартовать) по сравнению с претрейном, он все равно может быть достаточно дорогим, чтобы был соблазн на нем сэкономить.

В разбираемой работе авторы предлагают обучать квантизованную модель с LoRA адаптером, и якобы почти не теряют в качестве по сравнению с полным тюном, ускоряют итерации обучения, а еще на выходе имеют более компактную модель.

(sci)Berloga Science

1.5K

Математика, физика, дата сайнс. Основное правило - вежливое и уважительное общение.

@sberlogabig основной канал
@sberlogabio биоинформатика, биология
@sberlogatalkclub за жизнь

Обсуждение 0

Вход в экосистему

Ваши настройки cookie