avatar
🤖 Датаист
@andre_dataist
24.01.2025 15:31
OpenAI представила «Operator» – ИИ-агента, «гуляющего» по интернету за вас

Оператор — это автономный агент, способный действовать от вашего имени в браузере. Он «видит» страницы (через скриншоты), умеет нажимать кнопки и прокручивать ленту, а в случае надобности просит пользователя ввести логины и пароли вручную. Пока сервис доступен лишь пользователям ChatGPT Pro в США и стоит 200 $/мес. В будущем OpenAI обещает внедрить его и в другие тарифы ChatGPT.

Основная идея Оператора — экономия времени и упрощение рутины. Гипотетически Оператор может: оформлять покупки на сайтах (Instacart, DoorDash, Uber, StubHub и пр.), сравнивать цены, бронировать отели и билеты, заполнять формы и даже генерировать мемы.

В теории это напоминает «виртуального стажера» в браузере, которого вы инструктируете (например: «закажи пиццу», «забронируй поездку в Париж», «собери список блогеров»), а дальше Оператор выполняет задачу почти без вмешательства человека.

Так один ИИ-энтузиаст одним из первых протестировал Оператора. Он решил поручить ему собирать список финансовых блогеров на YouTube и искать их контакты в LinkedIn — в теории рутинная, но наглядная задача.

Как выяснилось, Оператор живо открывает страницы и пытается сам формировать табличку, но довольно быстро начинает «залипать»: вместо поиска через YouTube сам агент почему-то полез в Bing, а затем «запутался»; возникли серьезные «галлюцинации» — выдуманные контактные данные и мнимые ссылки на LinkedIn. По словам тестировщика, это «хуже, чем ранние GPT-3»; скорость оставляет желать лучшего. Каждая прокрутка, клик и ввод текста занимали 1–2 секунды — «как смотреть на очень медленную печать бабушкой».

Итог — Оператор так и не сделал качественный список за 20 минут и успел выдумать кучу несуществующих e-mail-ов. Сейчас Оператор похож на неопытного стажера, которого «стоило бы уволить». Однако разработка такого рода агента — это все еще перспективная демонстрация, способная в недалеком будущем автоматизировать скучные действия в браузере.

Что у конкурентов? Anthropic внедрила похожую технологию «computer use» в обновлённом Claude 3.5 Sonnet, который тоже пытается «тыкать мышкой» и «видеть» интерфейс. Но пока он сталкивается со схожими проблемами — не всегда корректно распознает элементы экранов, путается в сложных сайтах и часто требует участия человека.

ByteDance (материнская компания TikTok) пошла ещё дальше, представив UI-TARS — агента, работающего и на ПК, и в мобильных приложениях. По внутренним бенчмаркам он уже опережает GPT-4 и Claude по точности распознавания GUI. UI-TARS может запускать IDE, устанавливать плагины, покупать авиабилеты и так далее. При этом, как утверждают разработчики, работает быстрее и точнее — но пока это всё на стадии исследовательских публикаций.

Несмотря на все трудности, уже сейчас видно, в каком направлении движется индустрия: от простого чат-бота к полноценному ИИ-сотруднику. Технология очень молода, и разработчики лишь учатся эффективной и безопасной интеграции.

Оператор пока точно не отнимет вашу работу, но потенциал у подобных систем огромен — когда они «повзрослеют» и научатся действовать надежно, уйдет куча рутины вроде заполнения форм и ручного копирования данных из одного места в другое.

Как по мне, сейчас самое лучшее время учиться применять ИИ в своем бизнесе, аугментируя сотрудников. Автоматизация человеческой деятельности пока еще остается заветной целью, но уже сейчас можно отдать рутину ИИ и направить свой, человеческий интеллект в нужное русло. Сегодня ИИ скорее нас дополняет, чем заменяет, но, возможно, это временное явление, и он обучится автоматизации на наших данных.

Доверите ли вы свои данные и, по сути, свою «цифровую идентичность» агенту, который будет действовать от вашего лица?

#новости
OpenAI
Introducing Operator
👍 14
5
🔥 5
7 43 2.7K

Обсуждение 7

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram