Неискусственный интеллект
По вопросам — @ilya_sclyuev, @okalman и @Tertiusgaudens
Аналитика аудитории
Последний пост
Читать ленту →
Yet another ультимативный бенчмарк
Авторы SWE-bench совместно с Гарвардом, Стэнфордом и экстремистами Цукерберга выпустили ProgramBench. 200 задач, для решения которых модели дают исполняемый бинарник и документацию. А модель должна с нуля написать кодовую базу и сборку, которые воспроизводят поведение оригинала.
Условия суровые. Сети нет, бинарник можно только запустить, ни прочитать, ни скопировать, декомпиляторы и трассировщики (Ghidra, objdump, strace, ltrace) запрещены, окружение это чистый Docker, без кэшей и артефактов сборки, файлы с хэшем оригинала удаляются перед прогоном тестов. На ранних прогонах Opus 4.5 распознавал проект и клонировал исходники с GitHub, другие модели тащили код через cargo. Поэтому сеть и перекрыли. Вроде всё надежно, но есть нюанс, о котором дальше.
По основной метрике (полностью решенные задачи) ноль у всех. У всех. Поэтому лидерборд сортируют по почти решенным (95%+ тестов) задачам:
Распределение по задачам говорит больше, чем сводная цифра. На малых утилитах с понятным поведением побед от 90% до 98%, на больших C-проектах, таких как FFmpeg, коллапс: от 5% до 13%.
И вот тут начинается интересное. Авторы перекрыли все каналы утечки кроме одного, про который в их папире нет ни слова. Все 200 проектов это публичный опенсорс, который лежит в обучающих дата-сетах всех фронтиров. Закрывать модели чтение бинарника бессмысленно, если она помнит исходник наизусть. Документация обычно называет проект прямым текстом, а дальше модель достает из весов все что там есть по этому проекту.
То есть бенч заявляет, что меряет способность модели спроектировать программу с нуля по поведению, а на деле меряет произведение «насколько проект лежит у модели в весах» и «насколько модель способна развернуть эту память в код». Корреляция между популярностью проекта в данных видна.
Параллельно критики указывают, что у моделей очень ограниченная обвязка и доступность тулов, а реальные продакшн-агенты Claude Code и Codex авторами не тестировались. То есть «0% у всех» это 0% у моделей в урезанной обвязке. Авторы парируют тем, что отсутствие тулов и возможности затюнить под бенчмарк — фича.
Но в инфополе все пушат тезис «создатели SWE-bench выкатили бенч, на котором все модели имеют 0%, мы далеки от насыщения качества моделей». TLDR: ProgramBench почти наверняка станет очередным графиком, на котором фронтиры будут красиво расти ближайшие месяцы.
@anti_agi