avatar
gonzo-обзоры ML статей
@gonzo_ML
05.11.2025 01:42
Всё ещё кипятите?

What Really Matters in Matrix-Whitening Optimizers?
Авторы: Kevin Frans, Pieter Abbeel, Sergey Levine
Статья: https://arxiv.org/abs/2510.25000
Код: https://github.com/kvfrans/matrix-whitening
Ревью: https://arxiviq.substack.com/p/what-really-matters-in-matrix-whitening

Свежая интересная статья про разбор новых оптимизаторов и попытку разобраться, что же в них таки играет. Оказывается, нормализация и геометрия — это хорошо, но не единственный фактор.

Исследование предлагает инсайт, который меняет устоявшиеся взгляды: прирост производительности объясняется не только точной спектральной нормализацией, которая была доминирующей теоретической мотивацией. На самом деле, самый эффективный оптимизатор, SOAP, выполнял спектральную нормализацию менее точно, чем Muon, занявший второе место. Критически важным, но часто упускаемым из виду ингредиентом оказывается адаптация к дисперсии. Версии оптимизаторов с адаптацией к дисперсии последовательно и значительно превосходят свои аналоги со знаковым спуском (signed descent) во всех протестированных семействах. Это переосмысливает принципы проектирования будущих оптимизаторов, предполагая, что прогресс лежит в модульном сочетании этих двух компонентов, а не в концентрации на идеальной ортогонализации градиента. Работа также подтверждает эффективность низкоранговой факторизации для буферов дисперсии, что снижает потребление памяти и открывает путь к масштабированию этих мощных методов на огромные модели.

Подробнее: @gonzo_ML_podcasts1240
arXiv.org
What Really Matters in Matrix-Whitening Optimizers?
A range of recent optimizers have emerged that approximate the same "matrix-whitening" transformation in various ways. In this work, we systematically deconstruct such optimizers, aiming to...
? 22
? 4
? 4
82 5.8K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram