avatar
gonzo-обзоры ML статей
@gonzo_ML
29.10.2025 14:08
Всё дело в волшебных пузырьках!

Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять параллельными вычислительными потоками для каждого токена. Это достигается путём вставки специализированных «слоёв ветвления» между стандартными блоками трансформера.

Вместо генерации явного текста, как в Chain-of-Thought, эта модель может «разветвлять» (клонировать) или удалять residual streams для определённых токенов. Токены, требующие большей обработки, формируют временные «пузыри» параллельных вычислений внутри сети, которые затем сливаются для получения итогового результата.

Подробнее: @gonzo_ML_podcasts1118
Telegram
gonzo_ML_podcasts
За пределами Chain-of-Thought: неконтролируемые параллельные рассуждения в латентном пространстве Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space Houjun Liu, Shikhar Murty, Christopher D. Manning, R?bert Csord?s Статья: https://arxiv.org/abs/2510.00219 Ревью: https://arxiviq.substack.com/p/thoughtbubbles-an-unsupervised-method Код: https://github.com/stanfordnlp/thoughtbubbles # TL;DR Что сделали? В статье представлена Thoughtbubbles — новая архитектура трансформера, которая учится динамически распределять параллельные вычисления в своём латентном пространстве. Вместо генерации явного текста, как в Chain-of-Thought, эта модель может «разветвлять» (клонировать) или удалять residual streams для определённых токенов. Токены, требующие большей обработки, формируют временные «пузыри» параллельных вычислений внутри сети, которые затем сливаются для получения итогового результата. Почему это важно? Это первый известный метод, который позволяет достичь адаптивного, параллельного «мышления»…
? 16
? 4
? 2
4 40 5.3K

Обсуждение 4

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram