Yandex for ML
@yandexforml
Инженеры и исследователи Яндекса на ICLR 2026 в Рио!
С 23 по 27 апреля в Бразилии проходит 14-я конференция International Conference on Learning Representations, в которой Яндекс традиционно принял участие. Рассказываем о шести статьях, которые Yandex Reseach привёз на неё:
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
Детальный разбор новых форматов хранения весов и активаций от NVIDIA (MXFP4, NVFP4) для квантования после обучения.
Scale-wise Distillation of Diffusion Models
Новый подход к помасштабной дистилляции диффузионных моделей — дообучать генерации изображений прогрессивно, от низкого разрешения к высокому.
Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization
Разработка градиентного метода, который ускорен по Нестерову и не требует подбора гиперпараметров.
SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration
Единый теоретический анализ стохастического градиентного метода с адаптивным предобусловливанием.
Revisiting Global Text Conditioning in Diffusion Transformers
Новый подход к использованию pooled-эмбеддинга, который работает для разных моделей и улучшает результаты в text-to-image/video и image editing.
Sign-SGD is the Golden Gate between Multi-Node to SingleNode Learning: Significant Boost via Parameter-Free Optimization
Новый parameter-free-метод на основе Sign-SGD, который позволяет автоматически адаптировать шаг обучения в процессе оптимизации.
Подписывайтесь на канал ML Underhood — там рассказываем подробнее про конференцию и доклады.
Подписывайтесь:
@Yandex4ML
@YandexML
С 23 по 27 апреля в Бразилии проходит 14-я конференция International Conference on Learning Representations, в которой Яндекс традиционно принял участие. Рассказываем о шести статьях, которые Yandex Reseach привёз на неё:
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
Детальный разбор новых форматов хранения весов и активаций от NVIDIA (MXFP4, NVFP4) для квантования после обучения.
Scale-wise Distillation of Diffusion Models
Новый подход к помасштабной дистилляции диффузионных моделей — дообучать генерации изображений прогрессивно, от низкого разрешения к высокому.
Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization
Разработка градиентного метода, который ускорен по Нестерову и не требует подбора гиперпараметров.
SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration
Единый теоретический анализ стохастического градиентного метода с адаптивным предобусловливанием.
Revisiting Global Text Conditioning in Diffusion Transformers
Новый подход к использованию pooled-эмбеддинга, который работает для разных моделей и улучшает результаты в text-to-image/video и image editing.
Sign-SGD is the Golden Gate between Multi-Node to SingleNode Learning: Significant Boost via Parameter-Free Optimization
Новый parameter-free-метод на основе Sign-SGD, который позволяет автоматически адаптировать шаг обучения в процессе оптимизации.
Подписывайтесь на канал ML Underhood — там рассказываем подробнее про конференцию и доклады.
Подписывайтесь:
@Yandex4ML
@YandexML
❤ 20
👍 13
👏 7
❤🔥 1
41 3.6K
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram