Работа про Continuous Autoregressive Language Models. Генерим непрерывный вектор, из которого через VAE восстанавливаем сразу K токенов (например, 4).
Очень странно, что авторы вообще никак не упомянули работу про Coconut (
@gonzo_ML3567).
Continuous Autoregressive Language Models
Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
Статья:
https://arxiv.org/abs/2510.27688
Код:
https://github.com/shaochenze/calm
Проект:
https://shaochenze.github.io/blog/2025/CALM
Ревью:
https://arxiviq.substack.com/p/continuous-autoregressive-language
# TL;DR
?? Что сделали?
В статье представлена новая парадигма — непрерывные авторегрессионные языковые модели (Continuous Autoregressive Language Models, CALM). Она смещает фокус генерации LLM с последовательного предсказания дискретных токенов на предсказание непрерывных векторов. Для этого используется надёжный вариационный автоэнкодер, который с высокой точностью сжимает чанк из K токенов в один непрерывный вектор, сокращая количество авторегрессионных шагов в K раз. Переход в непрерывную область потребовал разработки целого набора инструментов, не использующих функцию правдоподобия. В него вошли: голова Energy Transformer для эффективной одношаговой генерации векторов; новая метрика BrierLM, основанная на строго корректной оценочной функции Brier score; и теоретически обоснованный black-box алгоритм для сэмплинга с температурой.
?? Почему это важно?
Эта работа напрямую решает фундаментальную проблему вычислительной неэффективности LLM — их пошаговый процесс генерации токен за токеном. Увеличивая «семантическую пропускную способность» каждого шага генерации, CALM открывает новую и очень эффективную ось масштабирования для языковых моделей. Эксперименты показывают, что такой подход обеспечивает лучший компромисс между производительностью и затратами на вычисления. Например, модель CALM достигает производительности сильного дискретного бейзлайна, требуя на 44% меньше FLOPs для обучения и на 34% меньше FLOPs для инференса. Таким образом, предсказание следующего вектора становится мощным и масштабируемым путём к созданию сверхэффективных языковых моделей, выходя за рамки традиционных законов масштабирования, сфокусированных только на параметрах и данных.
Подробнее:
@gonzo_ML_podcasts1340
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram