(sci)Berloga Science (@sberlogasci): ? Метод В качестве метода квантизации предлагают использовать NVFP (а чего вы еще хотели о…

?? Метод

В качестве метода квантизации предлагают использовать NVFP (а чего вы еще хотели от ребят из NVIDIA). Квантизация weight-only (активации не трогают).

LoRA адаптер встраивается в параллель к модели как в QLoRA.

RL осуществляется посредством пресловутого GRPO и его модификации DAPO.

Из интересного и нового - зашумление весов, которое способствует exploration ??. Квантизация - своего рода тоже шум, но детерминированный, а хочется каждый раз какой-то новый. Можно добавлять аддитивный к весам, но это дорого, потому что требует хранить де-факто тензоров на еще одну копию модели в half-precision, а хотелось держать в памяти только квантизованную модели. Потому шум в конечном итоге накладывается в RMS-норме перед проекциями и он эквивалентен мультипликативному шуму.

Величина шума постепенно убывает с некоего максимального значение (1e-2) до минимального (5e-4) по экспоненциальному расписанию.

??Эксперименты

Метод валидируют на моделях семейства Квен-2.5. В качестве датасетов для обучения используют GSM8k и BigMath. Модели квантизуют через AWQ.

Качество замеряют на GSM8k, AIME24, AIME25, AMC, MATH 500.

NVFP квантизация перед началом обучения немного снижает качество, но меньше, чем NF4 из bits-and-bytes (стоит заметить, что битность NVFP4 больше). В процессе дообучения квантизованная модель с адаптером становится лучше half_precision + LoRA. Здесь, правда, имеет место опасение, что бейзлайно плохо заведен.

Добавление шума с нужным расписанием немного докидывает качества. Разные расписания ведут себя почти одинаково, но экспонециальное затухание шума чуть лучше других.

От выбора ранга LoRA результат не сильно меняется.

Декларируемое ускорение обучения - до 2x (на H100) против bf16 на маленьких батчах, и порядка 20% на батче размера 8 (длина последовательности 2k). NF4, напротив, работает медленее, чем bfloat16. Ускорение NVFP4 достигается за счет того, что авторы генерируют роллауты в memory-bound режиме, с эффективным Marlin-like кернелом. Большие батчи не влезают или авторы не пробовали ???

?? Выводы

Дообучение квантизованных моделей с LoRA адаптерами выглядит как рабочее и доступное решение для энтузиастов заалайнить модельку. Данная статья рассматривала сценарий memory-bound по весам модели. Интересно, насколько хорошо предложенная стратегия заведется в compute-bound режиме, при weight + activation NVFP4 квантизации (дабы задействовать всю мощь FP4 вычислений) и на очень длинных контекстах (где в первую очередь важно квантизовать кэш).

Обсуждение 0

Вход в экосистему

Ваши настройки cookie