avatar
Data, Stories and Languages
@datastorieslanguages
26.01.2026 13:27
mHC: Manifold-Constrained Hyper-Connections

Первый обзор статьи в этом году. Авторы DeepSeek явно готовятся к новому релизу - обновили статью про DeepSeek-R1, я её ещё не смотрел, но мой обзор на оригинальную версию можно почитать тут, а также выпустили пару новых статей. mHC - одна из них.

Hyper-Connections (HC) расширяют residual stream и дают прирост качества, но ломают identity mapping, из-за чего обучение становится нестабильным, плохо масштабируется и упирается в memory overhead. В новой статье исследователи предлагают Manifold-Constrained Hyper-Connections (mHC): residual-смешивание проецируют на специальный manifold, чтобы восстановить identity mapping, и дополняют это серьёзными инфраструктурными оптимизациями. В итоге mHC сохраняет expressivity HC, резко улучшает стабильность обучения и лучше масштабируется на больших моделях — хороший шаг к более осмысленному дизайну архитектур для foundation models.

В статье много математики, осилил не всё. Но и без этого много интересного.

Paper

Мои обзоры:
Personal blog
Medium
Linkedin

#paperreview
3
👍 3
🔥 1
15 1.4K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram