avatar
Хабр
@habr_com
26.03.2026 17:04
Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%. Создатель Франсуа Шолле заменил статичные картинки на 135 интерактивных сред размером 64 на 64 пикселя. Алгоритмы обязаны вслепую исследовать уровни и разгадывать скрытые механики без текстовых инструкций. Интерактив ввели ради защиты от читерства, поскольку нейронки тупо зазубрили ответы прошлых версий из обучающих баз.

Испытуемых штрафуют за лишние действия по квадратичной формуле. ИИ со 100 шагами вместо 10 эталонных забирает ровно 1% эффективности. Люди щёлкают такие задачи за 7,4 минуты без всякой подготовки и инструктажей. Хвалёные Gemini 3.1 Pro Preview и Grok-4.20 закономерно рухнули на дно рейтинга с показателями ниже 1%.

Официальный лидерборд теперь бьёт по рукам за программные костыли. Внешние надстройки легко выбивают 97,1% в одной игре, но собирают 0% в следующей. Могучие дата-центры сжигают мегаватты энергии, однако пасуют перед пиксельной головоломкой уровня случайного прохожего.
👍 83
🔥 19
😁 14
3
🥰 2
🎉 2
🤩 2
🤔 1
😐 1
😭 1
11 225 19.4K

Обсуждение 11

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram

Хабр

129.4K
НЛО с вами!

№ 5197888779

Хабр Новости → https://t.me/habr_com_news
Хабр Карьера → https://t.me/habr_career
Реклама → adv@habr.team
Открыть в Telegram