gonzo-обзоры ML статей

@gonzo_ML

28.10.2025 12:42

Je suis Markov

Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.

Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.

Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:

1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.

2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.

Подробнее:
@gonzo_ML_podcasts1093

gonzo_ML_podcasts

? Мышление порциями: Markovian Thinker открывает путь к линейным по времени рассуждениям для LLM The Markovian Thinker Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy Статья: https://arxiv.org/abs/2510.06557 Ревью: https://arxiviq.substack.com/p/the-markovian-thinker Код: https://github.com/McGill-NLP/the-markovian-thinker Модель: https://huggingface.co/McGill-NLP/the-markovian-thinker # TL;DR В ЧЁМ СУТЬ? Статья представляет «марковское мышление» (Markovian Thinking) — новую парадигму для обучения LLM, способных к рассуждениям, с помощью обучения с подкреплением (RL). Эта парадигма реализуется через среду «Delethink», которая преобразует процесс рассуждений в последовательность «чанков» (кусков) фиксированного размера. На границе каждого чанка среда сбрасывает контекст, сохраняя лишь короткий, выученный моделью текстовый фрагмент — «марковское состояние» — для продолжения мыслительного процесса. RL-политика обучается записывать в этот…

? 18

? 10

? 6

9 86 5.7K

Обсуждение 9

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram

gonzo-обзоры ML статей

@gonzo_ML

24.3K

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Все посты канала Открыть в Telegram Статистика канала

Обсуждение 9

Вход в экосистему

Ваши настройки cookie