avatar
gonzo-обзоры ML статей
@gonzo_ML
13.11.2025 19:54
Работа про Continuous Autoregressive Language Models. Генерим непрерывный вектор, из которого через VAE восстанавливаем сразу K токенов (например, 4).

Очень странно, что авторы вообще никак не упомянули работу про Coconut (@gonzo_ML3567).

Continuous Autoregressive Language Models
Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
Статья: https://arxiv.org/abs/2510.27688
Код: https://github.com/shaochenze/calm
Проект: https://shaochenze.github.io/blog/2025/CALM
Ревью: https://arxiviq.substack.com/p/continuous-autoregressive-language

# TL;DR

?? Что сделали?
В статье представлена новая парадигма — непрерывные авторегрессионные языковые модели (Continuous Autoregressive Language Models, CALM). Она смещает фокус генерации LLM с последовательного предсказания дискретных токенов на предсказание непрерывных векторов. Для этого используется надёжный вариационный автоэнкодер, который с высокой точностью сжимает чанк из K токенов в один непрерывный вектор, сокращая количество авторегрессионных шагов в K раз. Переход в непрерывную область потребовал разработки целого набора инструментов, не использующих функцию правдоподобия. В него вошли: голова Energy Transformer для эффективной одношаговой генерации векторов; новая метрика BrierLM, основанная на строго корректной оценочной функции Brier score; и теоретически обоснованный black-box алгоритм для сэмплинга с температурой.

?? Почему это важно?
Эта работа напрямую решает фундаментальную проблему вычислительной неэффективности LLM — их пошаговый процесс генерации токен за токеном. Увеличивая «семантическую пропускную способность» каждого шага генерации, CALM открывает новую и очень эффективную ось масштабирования для языковых моделей. Эксперименты показывают, что такой подход обеспечивает лучший компромисс между производительностью и затратами на вычисления. Например, модель CALM достигает производительности сильного дискретного бейзлайна, требуя на 44% меньше FLOPs для обучения и на 34% меньше FLOPs для инференса. Таким образом, предсказание следующего вектора становится мощным и масштабируемым путём к созданию сверхэффективных языковых моделей, выходя за рамки традиционных законов масштабирования, сфокусированных только на параметрах и данных.

Подробнее: @gonzo_ML_podcasts1340
Telegram
gonzo-обзоры ML статей
Training Large Language Models to Reason in a Continuous Latent Space Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian Статья: https://arxiv.org/abs/2412.06769 Код: https://github.com/facebookresearch/coconut Песня: https://www.youtube.com/watch?v=PKQPey6L42M Статья, которую надо разобрать, про Coconut и ризонинг в латентном пространстве. Тем более даже Quanta уже написала, а мы всё нет. ?TL;DR. Идея проста: языковое пространство может быть не лучшим выбором для ризонинга через CoT (про CoT и ToT тут https://t.me/gonzo_ML/1885), и ризонинг можно делать не выходя в пространство токенов. Отсюда рождается Coconut (Chain Of CONtinUous Thought). Последнее скрытое состояние можно не декодировать в токен, а сразу подавать его на вход декодера в авторегрессионном процессе генерации как эмбеддинг для следующего шага. ?Идея Это интересный подход по нескольким причинам. Во-первых, прогон всего ризонинга через токены создаёт узкое место. Из одного эмбеддинга могут…
? 9
? 2
? 1
47 4.2K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram