avatar
gonzo-обзоры ML статей
@gonzo_ML
23.10.2025 20:55
Какая прикольная работа! CaT вместо CoT-SC.

Делаем несколько роллаутов, а потом не отбираем из них правильный ответ, а синтезируем! Из интересного, CaT может генерировать правильный ответ, даже когда каждый из входных роллаутов ошибочен.

@gonzo_ML_podcasts1004

Важно понимать подход CaT в контексте других недавних методов, не требующих эталонов. Хотя такие техники, как TTRL (https://arxiv.org/abs/2504.16084), также используют несколько роллаутов, они обычно полагаются на механизмы отбора, например, на поиск консенсуса большинством голосов. Сдвиг парадигмы в CaT в сторону синтеза — построения нового, лучшего ответа из частей несовершенных — вот что позволяет ему быть правым, даже когда все роллауты (а следовательно, и консенсус большинства) ошибочны.
Telegram
gonzo_ML_podcasts
Синтезируй, а не выбирай: разбор Compute as Teacher и обучения без эталонов Title: Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision Authors: Dulhan Jayalath, Shashwat Goel, Thomas Foster, Parag Jain, Suchin Gururangan, Cheng Zhang, Anirudh Goyal, Alan Schelten Paper: https://arxiv.org/abs/2509.14234 Review: https://arxiviq.substack.com/p/compute-as-teacher-turning-inference # TL;DR ? Что сделали? Авторы представляют метод Compute as Teacher (CaT), который превращает собственные поисковые результаты модели в высококачественную супервизию, не требующую эталонных данных. Вместо того чтобы выбирать «лучший» ответ из группы параллельных роллаутов, CaT использует замороженную «якорную» политику для синтеза единого, улучшенного эталона путём устранения противоречий и объединения частичных решений. Для верифицируемых задач, таких как математика, этот синтезированный ответ служит целью для программных верификаторов. Для не верифицируемых областей, например, диалогов в сфере здравоохранения…
? 15
4 59 6.5K

Обсуждение 4

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram