ИИ снова проигрывают людям: вышел новый бенчмарк ARC-AGI-3. Люди с ним справляются на 100%, а топовые нейронки не набирают и процента:
– Gemini 3.1 Pro решила на 0.37%;
– GPT 5.4 на 0.26%;
– Opus 4.6 на 0.25%;
– Grok-4.20 на 0.00%.
Для сравнения, ARC-AGI-1 пройден почти полностью, нейронки набирают до 98%. Рекорд в ARC-AGI-2 дошел уже до 85%.
Новый бенчмарк полностью состоит из игровых сред. Проверить себя можно
по ссылке.
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram