Хабр (@habr_com): Вышел бенчмарк ARC-AGI-3: . Создатель Франсуа Шолле заменил статичные картинки на 135 инте…

Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%. Создатель Франсуа Шолле заменил статичные картинки на 135 интерактивных сред размером 64 на 64 пикселя. Алгоритмы обязаны вслепую исследовать уровни и разгадывать скрытые механики без текстовых инструкций. Интерактив ввели ради защиты от читерства, поскольку нейронки тупо зазубрили ответы прошлых версий из обучающих баз.

Испытуемых штрафуют за лишние действия по квадратичной формуле. ИИ со 100 шагами вместо 10 эталонных забирает ровно 1% эффективности. Люди щёлкают такие задачи за 7,4 минуты без всякой подготовки и инструктажей. Хвалёные Gemini 3.1 Pro Preview и Grok-4.20 закономерно рухнули на дно рейтинга с показателями ниже 1%.

Официальный лидерборд теперь бьёт по рукам за программные костыли. Внешние надстройки легко выбивают 97,1% в одной игре, но собирают 0% в следующей. Могучие дата-центры сжигают мегаватты энергии, однако пасуют перед пиксельной головоломкой уровня случайного прохожего.

Обсуждение 11

Хабр

Пожаловаться

Обсуждение 11

Хабр

Вход в экосистему

Ваши настройки cookie