gonzo-обзоры ML статей

@gonzo_ML

23.10.2025 20:55

Какая прикольная работа! CaT вместо CoT-SC.

Делаем несколько роллаутов, а потом не отбираем из них правильный ответ, а синтезируем! Из интересного, CaT может генерировать правильный ответ, даже когда каждый из входных роллаутов ошибочен.

@gonzo_ML_podcasts1004

Важно понимать подход CaT в контексте других недавних методов, не требующих эталонов. Хотя такие техники, как TTRL (https://arxiv.org/abs/2504.16084), также используют несколько роллаутов, они обычно полагаются на механизмы отбора, например, на поиск консенсуса большинством голосов. Сдвиг парадигмы в CaT в сторону синтеза — построения нового, лучшего ответа из частей несовершенных — вот что позволяет ему быть правым, даже когда все роллауты (а следовательно, и консенсус большинства) ошибочны.

gonzo_ML_podcasts

Синтезируй, а не выбирай: разбор Compute as Teacher и обучения без эталонов Title: Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision Authors: Dulhan Jayalath, Shashwat Goel, Thomas Foster, Parag Jain, Suchin Gururangan, Cheng Zhang, Anirudh Goyal, Alan Schelten Paper: https://arxiv.org/abs/2509.14234 Review: https://arxiviq.substack.com/p/compute-as-teacher-turning-inference # TL;DR ? Что сделали? Авторы представляют метод Compute as Teacher (CaT), который превращает собственные поисковые результаты модели в высококачественную супервизию, не требующую эталонных данных. Вместо того чтобы выбирать «лучший» ответ из группы параллельных роллаутов, CaT использует замороженную «якорную» политику для синтеза единого, улучшенного эталона путём устранения противоречий и объединения частичных решений. Для верифицируемых задач, таких как математика, этот синтезированный ответ служит целью для программных верификаторов. Для не верифицируемых областей, например, диалогов в сфере здравоохранения…

? 15

4 59 6.5K

Обсуждение 4

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram

gonzo-обзоры ML статей

@gonzo_ML

24.3K

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Все посты канала Открыть в Telegram Статистика канала

Обсуждение 4

Вход в экосистему

Ваши настройки cookie