Je suis Markov
Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.
Авторы предлагают новую парадигму под названием
марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через
Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.
Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:
1.
Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.
2.
Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру
марковским состоянием.
Подробнее:
@gonzo_ML_podcasts1093
Обсуждение 9
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram