Неожиданно побили на ARC кучу сложных и тяжёлых токенных моделей с простой моделькой из комп.зрения.
ARC Is a Vision Problem!
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
Статья:
https://arxiv.org/abs/2511.14761
Код:
https://github.com/lillian039/VARC
Ревью:
https://arxiviq.substack.com/p/arc-is-a-vision-problem
# TL;DR
Что сделали? Авторы предлагают
VARC (Vision ARC) — фреймворк, который переосмысляет бенчмарк Abstraction and Reasoning Corpus (ARC). Вместо того чтобы рассматривать его как задачу для языка или синтеза программ, они подходят к нему как к прямой задаче
image-to-image трансляции. Проецирование сеток ARC на «холст» (canvas) высокого разрешения и использование стандартных архитектур компьютерного зрения (ViT и U-Net) в сочетании с агрессивным обучением во время теста (Test-Time Training, TTT) позволили достичь SOTA-результатов среди моделей, обученных с нуля.
Зачем это нужно? Этот подход бросает вызов доминированию LLM в абстрактном мышлении. Имея всего
18 миллионов параметров, VARC достигает 54.5% точности (60.4% в ансамбле) на ARC-1, соперничая со средним человеческим уровнем и превосходя массивные LLM вроде GPT-5, которым не хватает visual grounding. Работа показывает, что правильный inductive bias — конкретно 2D-локальность и масштабная инвариантность — может быть куда эффективнее простого наращивания масштаба.
Подробнее:
@gonzo_ML_podcasts1403
Обсуждение 13
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram