Эволюционные стратегии на масштабе. Недавно уже был один подход к снаряду (
@gonzo_ML4092), в новом добавили низкоранговую факторизацию.
Evolution Strategies at the Hyperscale
Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, Alistair Letcher, Antonio Le?n Villares, Anya Sims, Dylan Cope, Jarek Liesen, Lukas Seier, Theo Wolf, Uljad Berdica, Alexander David Goldie, Aaron Courville, Karin Sevegnani, Shimon Whiteson, Jakob Nicolaus Foerster
Статья:
https://arxiv.org/abs/2511.16652
Код:
https://eshyperscale.github.io/
Ревью:
https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale
# TL;DR
ЧТО сделали? Представили
EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров. Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с
O(mn) до
O(r(m+n)) и добились почти линейного масштабирования на кластерах. Это позволило обучать недифференцируемые системы, например, полностью целочисленные (integer-only) языковые модели.
ПОЧЕМУ это важно? Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры. Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной наградой, но упирались в потолок масштабирования: хранить и считать плотные матрицы шума для огромных сетей было слишком накладно. EGGROLL ломает этот барьер, доказывая, что низкоранговые возмущения могут отлично аппроксимировать истинные натуральные градиенты, сходясь при этом с высокой скоростью
O(1/r).
Подробнее:
@gonzo_ML_podcasts1418
Обсуждение 2
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram