avatar
(sci)Berloga Science
@sberlogasci
16.10.2025 12:00
Что обсуждалось вчера 15.10.2025

• На основе 11 новых сообщений от 5 участников
• Top 5 самых активных участников: Alex, Valery Kobenko, Leonid, Alexander C, Николай

Обсуждаемые темы:

?? Квантизация и Обучение с Подкреплением в Моделях (6 сообщений)
?? Кринжовые Задачки из GSM8k (1 сообщений)

Интересные ссылки:

?? Обсуждение о сложностях версий в LaTeX.
?? Короткое видео, которое, вероятно, поднимет настроение!

#sci_berlog | Персонализировать
avatar
(sci)Berloga Science
Переслано от канала
15.10.2025 23:23
?? Метод

В качестве метода квантизации предлагают использовать NVFP (а чего вы еще хотели от ребят из NVIDIA). Квантизация weight-only (активации не трогают).

LoRA адаптер встраивается в параллель к модели как в QLoRA.

RL осуществляется посредством пресловутого GRPO и его модификации DAPO.

Из интересного и нового - зашумление весов, которое способствует exploration ??. Квантизация - своего рода тоже шум, но детерминированный, а хочется каждый раз какой-то новый. Можно добавлять аддитивный к весам, но это дорого, потому что требует хранить де-факто тензоров на еще одну копию модели в half-precision, а хотелось держать в памяти только квантизованную модели. Потому шум в конечном итоге накладывается в RMS-норме перед проекциями и он эквивалентен мультипликативному шуму.

Величина шума постепенно убывает с некоего максимального значение (1e-2) до минимального (5e-4) по экспоненциальному расписанию.

??Эксперименты

Метод валидируют на моделях семейства Квен-2.5. В качестве датасетов для обучения используют GSM8k и BigMath. Модели квантизуют через AWQ.

Качество замеряют на GSM8k, AIME24, AIME25, AMC, MATH 500.

NVFP квантизация перед началом обучения немного снижает качество, но меньше, чем NF4 из bits-and-bytes (стоит заметить, что битность NVFP4 больше). В процессе дообучения квантизованная модель с адаптером становится лучше half_precision + LoRA. Здесь, правда, имеет место опасение, что бейзлайно плохо заведен.

Добавление шума с нужным расписанием немного докидывает качества. Разные расписания ведут себя почти одинаково, но экспонециальное затухание шума чуть лучше других.

От выбора ранга LoRA результат не сильно меняется.

Декларируемое ускорение обучения - до 2x (на H100) против bf16 на маленьких батчах, и порядка 20% на батче размера 8 (длина последовательности 2k). NF4, напротив, работает медленее, чем bfloat16. Ускорение NVFP4 достигается за счет того, что авторы генерируют роллауты в memory-bound режиме, с эффективным Marlin-like кернелом. Большие батчи не влезают или авторы не пробовали ???

?? Выводы

Дообучение квантизованных моделей с LoRA адаптерами выглядит как рабочее и доступное решение для энтузиастов заалайнить модельку. Данная статья рассматривала сценарий memory-bound по весам модели. Интересно, насколько хорошо предложенная стратегия заведется в compute-bound режиме, при weight + activation NVFP4 квантизации (дабы задействовать всю мощь FP4 вычислений) и на очень длинных контекстах (где в первую очередь важно квантизовать кэш).
10 834
avatar
(sci)Berloga Science
Переслано от канала
15.10.2025 23:23
QERL: BEYOND EFFICIENCY – QUANTIZATION-ENHANCED REINFORCEMENT LEARNING FOR LLMS
[Статья] [Код]

Введение

Все современные SOTA языковые модели в процедуре обучения так или иначе содержат RL в том или ином виде. Несмотря на то, что RL этап требует обычно меньше вычислений (есть работы, которые предлагают сразу с RL-я стартовать) по сравнению с претрейном, он все равно может быть достаточно дорогим, чтобы был соблазн на нем сэкономить.

В разбираемой работе авторы предлагают обучать квантизованную модель с LoRA адаптером, и якобы почти не теряют в качестве по сравнению с полным тюном, ускоряют итерации обучения, а еще на выходе имеют более компактную модель.
13 759
avatar
(sci)Berloga Science
@sberlogasci
15.10.2025 12:00
Что обсуждалось вчера 14.10.2025

• На основе 13 новых сообщений от 7 участников
• Top 5 самых активных участников: Vladimir F, Leonid, Rainbow Dash, Андрей Kovalskiy, Maksim Loginov

Обсуждаемые темы:

?? Итоги недели и планы по задачам (35 сообщений)
?? Обсуждение задач по LLM и оптимизации (10 сообщений)
?? Идеи по улучшению бим-серча (10 сообщений)
?? Поиск диаметра и исследование линейных групп (10 сообщений)
?? Соревнования на Kaggle (20 сообщений)
?? Проектирование и работа с LLM (7 сообщений)
?? Оптимизация и алгоритмы (10 сообщений)
?? Работа с графами и группами (7 сообщений)
?? Проблемы и баги в коде (6 сообщений)
?? Метрики и результаты экспериментов (5 сообщений)

#sci_berlog | Персонализировать
avatar
(sci)Berloga Science
@sberlogasci
14.10.2025 12:00
Что обсуждалось вчера 13.10.2025

• На основе 67 новых сообщений от 4 участников
• Top 4 самых активных участников: Yuri Baramykov, Alexander C, димчик, ?????????? ?????????????????????????? the Slayer

Обсуждаемые темы:

?? Омографы и ударения в русском языке (3 сообщений)
?? Теория чисел и открытые проблемы (6 сообщений)
?? Проблема Лежандра (2 сообщений)
?? Математика и GPT-5 (1 сообщений)
?? Новый релиз nanochat от Андрея Карпаты (1 сообщений)
?? Ресурсы про Agentic AI (1 сообщений)

#sci_berlog | Персонализировать
avatar
(sci)Berloga Science
Переслано от канала
14.10.2025 10:52
мамба3

открыл папир мамба3, промотал на таблицу с метриками, как и у всех убийц трансформеров ситуация такая же - микромодель, приросты на несколько пунктов, ненасыщенный претрейн(100B токенов не очень много для 1.5b трансформера)

Переводя на человеческий - авторы пошли по классическому "давайте найдем сетап где это будет работать"

Закрыл, пошел листать имплементацию deepseek 3.2

полистать
55 6.9K
avatar
(sci)Berloga Science
Переслано от канала
14.10.2025 10:45
И если нам время не так критично , скажем хотим найти диаметр , готовы запустить процесс на неделю....
avatar
(sci)Berloga Science
Переслано от канала
14.10.2025 10:45
С другой стороны если мы все равно гоним бим серч , то почему бы его не юзать для улучшения модели ...
avatar
(sci)Berloga Science
Переслано от канала
14.10.2025 10:45
Не ясно насколько большой профит будет от такого

А потеря скорости огромная
Поскольку бим серч долгая штука если луч большой