Неискусственный интеллект

Неискусственный интеллект

Открыть
Новый проект авторов "Нецифровой экономики" (@antidigital), посвященный новостям искусственного интеллекта.
По вопросам — @ilya_sclyuev, @okalman и @Tertiusgaudens

Аналитика аудитории

5K
Подписчики

Последний пост

Читать ленту →
Неискусственный интеллект 07.05.2026 22:30

Yet another ультимативный бенчмарк

Авторы SWE-bench совместно с Гарвардом, Стэнфордом и экстремистами Цукерберга выпустили ProgramBench. 200 задач, для решения которых модели дают исполняемый бинарник и документацию. А модель должна с нуля написать кодовую базу и сборку, которые воспроизводят поведение оригинала.

Условия суровые. Сети нет, бинарник можно только запустить, ни прочитать, ни скопировать, декомпиляторы и трассировщики (Ghidra, objdump, strace, ltrace) запрещены, окружение это чистый Docker, без кэшей и артефактов сборки, файлы с хэшем оригинала удаляются перед прогоном тестов. На ранних прогонах Opus 4.5 распознавал проект и клонировал исходники с GitHub, другие модели тащили код через cargo. Поэтому сеть и перекрыли. Вроде всё надежно, но есть нюанс, о котором дальше.

По основной метрике (полностью решенные задачи) ноль у всех. У всех. Поэтому лидерборд сортируют по почти решенным (95%+ тестов) задачам:
▪️ Claude Opus 4.7 с 3.0%
▪️ Opus 4.6 с 2.5%
▪️ Sonnet 4.6 с 1.0%
▪️ GPT 5.4, Gemini 3.1 Pro, Gemini 3 Flash, Haiku 4.5, GPT 5.4 mini, GPT 5 mini ровно 0 и здесь.

Распределение по задачам говорит больше, чем сводная цифра. На малых утилитах с понятным поведением побед от 90% до 98%, на больших C-проектах, таких как FFmpeg, коллапс: от 5% до 13%.

И вот тут начинается интересное. Авторы перекрыли все каналы утечки кроме одного, про который в их папире нет ни слова. Все 200 проектов это публичный опенсорс, который лежит в обучающих дата-сетах всех фронтиров. Закрывать модели чтение бинарника бессмысленно, если она помнит исходник наизусть. Документация обычно называет проект прямым текстом, а дальше модель достает из весов все что там есть по этому проекту.

То есть бенч заявляет, что меряет способность модели спроектировать программу с нуля по поведению, а на деле меряет произведение «насколько проект лежит у модели в весах» и «насколько модель способна развернуть эту память в код». Корреляция между популярностью проекта в данных видна.

Параллельно критики указывают, что у моделей очень ограниченная обвязка и доступность тулов, а реальные продакшн-агенты Claude Code и Codex авторами не тестировались. То есть «0% у всех» это 0% у моделей в урезанной обвязке. Авторы парируют тем, что отсутствие тулов и возможности затюнить под бенчмарк — фича.

Но в инфополе все пушат тезис «создатели SWE-bench выкатили бенч, на котором все модели имеют 0%, мы далеки от насыщения качества моделей». TLDR: ProgramBench почти наверняка станет очередным графиком, на котором фронтиры будут красиво расти ближайшие месяцы.

@anti_agi

Читать полностью
Это ваш профиль? Заявите права и настройте визитку бесплатно.