avatar
gonzo-обзоры ML статей
@gonzo_ML
10.11.2025 18:00
Вот и до Nested Learning, Hope, Titans 2.0 добрались.

Nested Learning: The Illusion of Deep Learning Architectures
Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, Vahab Mirrokni
Paper: https://abehrouz.github.io/files/NL.pdf
Blog: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
Review: https://arxiviq.substack.com/p/nested-learning-the-illusion-of-deep

# TL;DR

?? Что сделано?
В статье представлено Nested Learning (NL, вложенное обучение) — новая теоретическая парадигма, которая переосмысливает модели машинного обучения и процедуры их обучения как интегрированную систему вложенных, многоуровневых оптимизационных задач. Каждый компонент в этой иерархии оперирует собственным «потоком контекста» — например, потоком выборок данных или градиентов — и имеет свою частоту обновления. Такой «white-box» взгляд показывает, что существующие методы глубокого обучения работают за счёт сжатия контекста. В рамках этой парадигмы авторы делают три основных вклада: (1) Deep Optimizers — концепция, которая интерпретирует оптимизаторы вроде SGD с моментом как обучаемые, многоуровневые модули памяти, сжимающие градиенты; (2) Continuum Memory System (CMS) — система, обобщающая краткосрочную и долгосрочную память в иерархию блоков памяти, обновляющихся в разных временных масштабах; и (3) HOPE (или Self-Modifying Titans) — новая самомодифицирующаяся архитектура для последовательностей, которая объединяет эти принципы и достигает передовых результатов.

?? Почему это важно?
Вложенное обучение предлагает принципиальное, вдохновлённое нейронаукой решение одной из самых больших проблем в ИИ — статичности больших языковых моделей (LLM). Вместо «иллюзии» простого нагромождения слоёв, NL предоставляет математическую основу для создания моделей, способных к непрерывному обучению, самосовершенствованию и рассуждениям в контексте (in-context reasoning) более высокого порядка. Эта работа смещает фокус с эвристического конструирования архитектур на целенаправленное проектирование систем памяти с несколькими временными масштабами. Итоговая архитектура HOPE демонстрирует превосходство над сильными бейзлайнами, такими как трансформеры и её предшественник Titans, указывая на будущее, в котором ИИ-системы станут более адаптивными, эффективными и смогут преодолеть «амнезию», присущую текущим моделям.

Подробнее: @gonzo_ML_podcasts1317
? 20
? 11
? 3
1 102 5.5K

Обсуждение 1

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram