avatar
gonzo-обзоры ML статей
@gonzo_ML
28.10.2025 12:42
Je suis Markov

Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.

Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.

Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:

1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.

2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.

Подробнее:
@gonzo_ML_podcasts1093
Telegram
gonzo_ML_podcasts
? Мышление порциями: Markovian Thinker открывает путь к линейным по времени рассуждениям для LLM The Markovian Thinker Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy Статья: https://arxiv.org/abs/2510.06557 Ревью: https://arxiviq.substack.com/p/the-markovian-thinker Код: https://github.com/McGill-NLP/the-markovian-thinker Модель: https://huggingface.co/McGill-NLP/the-markovian-thinker # TL;DR В ЧЁМ СУТЬ? Статья представляет «марковское мышление» (Markovian Thinking) — новую парадигму для обучения LLM, способных к рассуждениям, с помощью обучения с подкреплением (RL). Эта парадигма реализуется через среду «Delethink», которая преобразует процесс рассуждений в последовательность «чанков» (кусков) фиксированного размера. На границе каждого чанка среда сбрасывает контекст, сохраняя лишь короткий, выученный моделью текстовый фрагмент — «марковское состояние» — для продолжения мыслительного процесса. RL-политика обучается записывать в этот…
? 18
? 10
? 6
9 86 5.7K

Обсуждение 9

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram