Анализ данных (Data analysis) (@data_analysis_ml): Claude Computer Use: Anthropic наконец объяснила, почему агенты промахиваются по кнопкам …

Claude Computer Use: Anthropic наконец объяснила, почему агенты промахиваются по кнопкам

Anthropic выложила практический гайд по computer/browser use для Claude. И там не про «магических агентов будущего», а про скучную инженерию, из-за которой агент либо работает, либо кликает мимо кнопки.

Главный инсайт: точность кликов часто ломается не из-за модели, а из-за скриншотов.

Если отправлять в API нативный 4K-скрин, Claude всё равно может увидеть его в уменьшенном виде. Модель возвращает координаты по одной картинке, а ваш harness кликает по другой системе координат. Итог - стабильные промахи.

Что рекомендует Anthropic:

- заранее downscale скриншотов
- для Claude 4.6 держаться около 1280×720
- для Opus 4.7 можно начинать с 1080p
- не отправлять native 4K без подготовки
- всегда масштабировать координаты обратно в реальный экран
- сначала давать текстовую инструкцию, потом изображение
- для мелких UI-элементов включать zoom или использовать клавиатуру
- логировать transcript и накладывать predicted clicks поверх скриншота

Отдельно интересно про модели. Sonnet 4.6 у них точнее для механических кликов, Opus 4.7 уже почти догнал по click accuracy, но даёт больше reasoning и больший pixel budget.

Самый полезный вывод: browser agent - это не «дал промпт и забыл».

Это система из модели, скриншотов, координат, DPI, zoom, DOM, клавиатуры, логов и fallback-методов. Если хотя бы один слой настроен криво, агент будет выглядеть глупым, хотя проблема вообще не в интеллекте модели.

Агенты становятся реальными не тогда, когда модель «умнее».

А тогда, когда вокруг неё собран нормальный runtime.

https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude

Обсуждение 1

Вход в экосистему

Ваши настройки cookie