(sci)Berloga Science (@sberlogasci)

(sci)Berloga Science

Переслано от канала

17.10.2025 18:14

@SCIENCE_MEMEZ

8 615

(sci)Berloga Science

@sberlogasci

16.10.2025 20:26

Алгоритм кроме majority voting

(sci)Berloga Science

@sberlogasci

16.10.2025 12:00

Что обсуждалось вчера 15.10.2025

• На основе 11 новых сообщений от 5 участников
• Top 5 самых активных участников: Alex, Valery Kobenko, Leonid, Alexander C, Николай

Обсуждаемые темы:

?? Квантизация и Обучение с Подкреплением в Моделях (6 сообщений)
?? Кринжовые Задачки из GSM8k (1 сообщений)

Интересные ссылки:

?? Обсуждение о сложностях версий в LaTeX.
?? Короткое видео, которое, вероятно, поднимет настроение!

#sci_berlog | Персонализировать

(sci)Berloga Science

@sberlogasci

16.10.2025 03:34

(sci)Berloga Science

Переслано от канала

15.10.2025 23:23

Кринжовые задачки из GSM8k

9 856

(sci)Berloga Science

Переслано от канала

15.10.2025 23:23

?? Метод

В качестве метода квантизации предлагают использовать NVFP (а чего вы еще хотели от ребят из NVIDIA). Квантизация weight-only (активации не трогают).

LoRA адаптер встраивается в параллель к модели как в QLoRA.

RL осуществляется посредством пресловутого GRPO и его модификации DAPO.

Из интересного и нового - зашумление весов, которое способствует exploration ??. Квантизация - своего рода тоже шум, но детерминированный, а хочется каждый раз какой-то новый. Можно добавлять аддитивный к весам, но это дорого, потому что требует хранить де-факто тензоров на еще одну копию модели в half-precision, а хотелось держать в памяти только квантизованную модели. Потому шум в конечном итоге накладывается в RMS-норме перед проекциями и он эквивалентен мультипликативному шуму.

Величина шума постепенно убывает с некоего максимального значение (1e-2) до минимального (5e-4) по экспоненциальному расписанию.

??Эксперименты

Метод валидируют на моделях семейства Квен-2.5. В качестве датасетов для обучения используют GSM8k и BigMath. Модели квантизуют через AWQ.

Качество замеряют на GSM8k, AIME24, AIME25, AMC, MATH 500.

NVFP квантизация перед началом обучения немного снижает качество, но меньше, чем NF4 из bits-and-bytes (стоит заметить, что битность NVFP4 больше). В процессе дообучения квантизованная модель с адаптером становится лучше half_precision + LoRA. Здесь, правда, имеет место опасение, что бейзлайно плохо заведен.

Добавление шума с нужным расписанием немного докидывает качества. Разные расписания ведут себя почти одинаково, но экспонециальное затухание шума чуть лучше других.

От выбора ранга LoRA результат не сильно меняется.

Декларируемое ускорение обучения - до 2x (на H100) против bf16 на маленьких батчах, и порядка 20% на батче размера 8 (длина последовательности 2k). NF4, напротив, работает медленее, чем bfloat16. Ускорение NVFP4 достигается за счет того, что авторы генерируют роллауты в memory-bound режиме, с эффективным Marlin-like кернелом. Большие батчи не влезают или авторы не пробовали ???

?? Выводы

Дообучение квантизованных моделей с LoRA адаптерами выглядит как рабочее и доступное решение для энтузиастов заалайнить модельку. Данная статья рассматривала сценарий memory-bound по весам модели. Интересно, насколько хорошо предложенная стратегия заведется в compute-bound режиме, при weight + activation NVFP4 квантизации (дабы задействовать всю мощь FP4 вычислений) и на очень длинных контекстах (где в первую очередь важно квантизовать кэш).

10 834

(sci)Berloga Science

Переслано от канала

15.10.2025 23:23

QERL: BEYOND EFFICIENCY – QUANTIZATION-ENHANCED REINFORCEMENT LEARNING FOR LLMS
[Статья] [Код]

Введение

Все современные SOTA языковые модели в процедуре обучения так или иначе содержат RL в том или ином виде. Несмотря на то, что RL этап требует обычно меньше вычислений (есть работы, которые предлагают сразу с RL-я стартовать) по сравнению с претрейном, он все равно может быть достаточно дорогим, чтобы был соблазн на нем сэкономить.

В разбираемой работе авторы предлагают обучать квантизованную модель с LoRA адаптером, и якобы почти не теряют в качестве по сравнению с полным тюном, ускоряют итерации обучения, а еще на выходе имеют более компактную модель.

13 759

(sci)Berloga Science

@sberlogasci

15.10.2025 20:10

https://www.youtube.com/shorts/3x7xKatneUg

YouTube

ОХ, БЫЛА НЕ БЫЛА? Заходи в мой телеграм канал, чтобы изучать классный естественный английский.

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

(sci)Berloga Science

@sberlogasci

15.10.2025 17:14

8

(sci)Berloga Science

@sberlogasci

15.10.2025 14:58

(sci)Berloga Science

@sberlogasci

15.10.2025 12:00

Что обсуждалось вчера 14.10.2025

• На основе 13 новых сообщений от 7 участников
• Top 5 самых активных участников: Vladimir F, Leonid, Rainbow Dash, Андрей Kovalskiy, Maksim Loginov

Обсуждаемые темы:

?? Итоги недели и планы по задачам (35 сообщений)
?? Обсуждение задач по LLM и оптимизации (10 сообщений)
?? Идеи по улучшению бим-серча (10 сообщений)
?? Поиск диаметра и исследование линейных групп (10 сообщений)
?? Соревнования на Kaggle (20 сообщений)
?? Проектирование и работа с LLM (7 сообщений)
?? Оптимизация и алгоритмы (10 сообщений)
?? Работа с графами и группами (7 сообщений)
?? Проблемы и баги в коде (6 сообщений)
?? Метрики и результаты экспериментов (5 сообщений)

#sci_berlog | Персонализировать

(sci)Berloga Science

@sberlogasci

15.10.2025 10:22

(sci)Berloga Science опасно, можно застрять в версиях, как TeX: https://news.ycombinator.com/item?id=25332304

у них там просто свой процесс, проще придумать приписку чем нормально версии вести

(sci)Berloga Science

@sberlogasci

15.10.2025 08:39

(sci)Berloga Science Фото: Медиафайл

опасно, можно застрять в версиях, как TeX: https://news.ycombinator.com/item?id=25332304

? 2

(sci)Berloga Science

@sberlogasci

15.10.2025 06:17

? 1

(sci)Berloga Science

@sberlogasci

14.10.2025 18:33

(sci)Berloga Science

@sberlogasci

14.10.2025 12:00

Что обсуждалось вчера 13.10.2025

• На основе 67 новых сообщений от 4 участников
• Top 4 самых активных участников: Yuri Baramykov, Alexander C, димчик, ?????????? ?????????????????????????? the Slayer

Обсуждаемые темы:

?? Омографы и ударения в русском языке (3 сообщений)
?? Теория чисел и открытые проблемы (6 сообщений)
?? Проблема Лежандра (2 сообщений)
?? Математика и GPT-5 (1 сообщений)
?? Новый релиз nanochat от Андрея Карпаты (1 сообщений)
?? Ресурсы про Agentic AI (1 сообщений)

#sci_berlog | Персонализировать

(sci)Berloga Science

Переслано от канала

14.10.2025 10:52

мамба3

открыл папир мамба3, промотал на таблицу с метриками, как и у всех убийц трансформеров ситуация такая же - микромодель, приросты на несколько пунктов, ненасыщенный претрейн(100B токенов не очень много для 1.5b трансформера)

Переводя на человеческий - авторы пошли по классическому "давайте найдем сетап где это будет работать"

Закрыл, пошел листать имплементацию deepseek 3.2

полистать

55 6.9K

(sci)Berloga Science

Переслано от канала

14.10.2025 10:45

И если нам время не так критично , скажем хотим найти диаметр , готовы запустить процесс на неделю....

(sci)Berloga Science

Переслано от канала

14.10.2025 10:45

С другой стороны если мы все равно гоним бим серч , то почему бы его не юзать для улучшения модели ...

(sci)Berloga Science

Переслано от канала

14.10.2025 10:45

Не ясно насколько большой профит будет от такого

А потеря скорости огромная
Поскольку бим серч долгая штука если луч большой

Вход в экосистему

Ваши настройки cookie