mHC: Manifold-Constrained Hyper-Connections
Первый обзор статьи в этом году. Авторы DeepSeek явно готовятся к новому релизу - обновили статью про DeepSeek-R1, я её ещё не смотрел, но мой обзор на оригинальную версию можно почитать
тут, а также выпустили пару новых статей. mHC - одна из них.
Hyper-Connections (HC) расширяют residual stream и дают прирост качества, но ломают identity mapping, из-за чего обучение становится нестабильным, плохо масштабируется и упирается в memory overhead. В новой статье исследователи предлагают Manifold-Constrained Hyper-Connections (mHC): residual-смешивание проецируют на специальный manifold, чтобы восстановить identity mapping, и дополняют это серьёзными инфраструктурными оптимизациями. В итоге mHC сохраняет expressivity HC, резко улучшает стабильность обучения и лучше масштабируется на больших моделях — хороший шаг к более осмысленному дизайну архитектур для foundation models.
В статье много математики, осилил не всё. Но и без этого много интересного.
Paper
Мои обзоры:
Personal blog
Medium
Linkedin
#paperreview
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram