🔥 Идея из paper: перестать “тренировать наугад” - и сначала предсказывать, какой код выиграет
Обычно ML-агенты работают так:
написал код -> запустил обучение -> посмотрел результат -> исправил -> снова запустил…
Проблема в том, что
каждая попытка может занимать часы, и получается дорогой trial-and-error.
Авторы предлагают другой подход:
✅ вместо того чтобы проверять все варианты
агент
сначала рассуждением выбирает, какой из 2 решений лучше,
и
запускает обучение только для лучшего кандидата.
То есть:
сначала прогноз -> потом одна проверка, а не десятки запусков.
Они оформляют это как задачу:
“выбор лучшего решения по данным” (data-centric preference)
На вход дают:
- описание задачи
- *подтверждённый отчёт о датасете* (data report)
- два варианта кода
Чтобы отчёту можно было доверять, они:
1) прогоняют отдельный профайлинг-скрипт по данным
2) проверяют логи
3) переписывают статистику в простой текст, понятный LLM
Результат на реальных данных:
-
18,438 пар решений
-
26 задач
- точность лучшей модели:
61.5%
- и ещё важно: уверенность модели реально совпадает с тем, права она или нет
В их системе
FOREAGENT это даёт:
⚡
поиск в 6 раз быстрее
📈
примерно на 6% лучше качество
Вывод простой:
мы можем ускорить обучение агентов не за счёт железа,
а за счёт “умного отбора” -
тренировать только то, что с высокой вероятностью сработает.
Paper:
arxiv.org/abs/2601.05930
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram