gonzo-обзоры ML статей (@gonzo_ML): Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve отдельную rewar…

Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve отдельную reward model, обученную на ревью ICLR.

AlphaResearch: Accelerating New Algorithm Discovery with Language Models
Authors: Zhaojian Yu, Kaiyue Feng, Yilun Zhao, Shilin He, Xiao-Ping Zhang, Arman Cohan
Paper: https://arxiv.org/abs/2511.08522
Code: https://github.com/answers111/alpha-research
Model: https://huggingface.co/alpha-research/AlphaResearch-RM-Qwen-7B
Review: https://arxiviq.substack.com/p/alpharesearch-accelerating-new-algorithm

# TL;DR

Что сделано?
Авторы представляют AlphaResearch, автономного агента, который открывает новые алгоритмы для решения открытых задач. Ключевая инновация — «двойная исследовательская среда», которая расширяет подход верификации на основе выполнения кода, используемый в системах вроде AlphaEvolve. Эта среда добавляет симулированный механизм рецензирования (peer review), работающий на базе модели вознаграждения (AlphaResearch-RM-7B), обученной на более чем 24 000 реальных рецензий с конференции ICLR. Эта модель оценивает новизну и качество предлагаемой идеи *до* её реализации, что позволяет отсеивать бесперспективные направления на раннем этапе. Авторы также представили AlphaResearchComp — новый открытый бенчмарк из 8 сложных алгоритмических задач для обеспечения прозрачной и воспроизводимой оценки.

Почему это важно?
Такой двойной подход напрямую решает проблему «разрыва между идеей и её выполнением» — ключевую сложность, когда сгенерированные ИИ идеи либо инновационны, но невыполнимы, либо выполнимы, но не представляют научного интереса. Сочетая оценку качества идеи с производительностью её реализации, AlphaResearch ускоряет поиск значимых открытий. Это подтвердилось, когда агент открыл новый, лучший из известных алгоритм для задачи «упаковки кругов», превзойдя решения как экспертов-людей, так и сильных бейзлайнов вроде AlphaEvolve. Работа представляет собой важный шаг вперёд, смещая парадигму от простого поиска работающего кода к открытию научно ценных алгоритмов.

Подробнее: @gonzo_ML_podcasts1377

Обсуждение 9

Вход в экосистему

Ваши настройки cookie