avatar
gonzo-обзоры ML статей
@gonzo_ML
23.11.2025 21:29
Неожиданно побили на ARC кучу сложных и тяжёлых токенных моделей с простой моделькой из комп.зрения.

ARC Is a Vision Problem!
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2511.14761
Код: https://github.com/lillian039/VARC
Ревью: https://arxiviq.substack.com/p/arc-is-a-vision-problem

# TL;DR

Что сделали? Авторы предлагают VARC (Vision ARC) — фреймворк, который переосмысляет бенчмарк Abstraction and Reasoning Corpus (ARC). Вместо того чтобы рассматривать его как задачу для языка или синтеза программ, они подходят к нему как к прямой задаче image-to-image трансляции. Проецирование сеток ARC на «холст» (canvas) высокого разрешения и использование стандартных архитектур компьютерного зрения (ViT и U-Net) в сочетании с агрессивным обучением во время теста (Test-Time Training, TTT) позволили достичь SOTA-результатов среди моделей, обученных с нуля.

Зачем это нужно? Этот подход бросает вызов доминированию LLM в абстрактном мышлении. Имея всего 18 миллионов параметров, VARC достигает 54.5% точности (60.4% в ансамбле) на ARC-1, соперничая со средним человеческим уровнем и превосходя массивные LLM вроде GPT-5, которым не хватает visual grounding. Работа показывает, что правильный inductive bias — конкретно 2D-локальность и масштабная инвариантность — может быть куда эффективнее простого наращивания масштаба.

Подробнее: @gonzo_ML_podcasts1403
arXiv.org
ARC Is a Vision Problem!
The Abstraction and Reasoning Corpus (ARC) is designed to promote research on abstract reasoning, a fundamental aspect of human intelligence. Common approaches to ARC treat it as a...
? 21
? 6
??? 2
13 58 4.2K

Обсуждение 13

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram