🔥 Идея из paper: перестать “тренировать наугад” - и сначала предсказывать, какой код выиграет

Обычно ML-агенты работают так:
написал код -> запустил обучение -> посмотрел результат -> исправил -> снова запустил…

Проблема в том, что каждая попытка может занимать часы, и получается дорогой trial-and-error.

Авторы предлагают другой подход:

✅ вместо того чтобы проверять все варианты
агент сначала рассуждением выбирает, какой из 2 решений лучше,
и запускает обучение только для лучшего кандидата.

То есть:
сначала прогноз -> потом одна проверка, а не десятки запусков.

Они оформляют это как задачу:
“выбор лучшего решения по данным” (data-centric preference)

На вход дают:
- описание задачи
- *подтверждённый отчёт о датасете* (data report)
- два варианта кода

Чтобы отчёту можно было доверять, они:
1) прогоняют отдельный профайлинг-скрипт по данным
2) проверяют логи
3) переписывают статистику в простой текст, понятный LLM

Результат на реальных данных:
- 18,438 пар решений
- 26 задач
- точность лучшей модели: 61.5%
- и ещё важно: уверенность модели реально совпадает с тем, права она или нет

В их системе FOREAGENT это даёт:
поиск в 6 раз быстрее
📈 примерно на 6% лучше качество

Вывод простой:
мы можем ускорить обучение агентов не за счёт железа,
а за счёт “умного отбора” - тренировать только то, что с высокой вероятностью сработает.

Paper: arxiv.org/abs/2601.05930
2
👍 2
👏 1
25 4.8K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram