Anthropic устроила барахолку на ИИ-агентах
Anthropic
провела любопытный эксперимент под названием Project Deal. 69 сотрудников компании доверили ИИ-агентам на базе Claude продавать и покупать вещи от их имени. От сноуборда до пакета с мячиками для пинг-понга.
Как это работало. Сначала Claude проводил короткое интервью с каждым участником — что хотите продать, за сколько, что готовы купить. На основе ответов формировался персональный промпт для агента. Дальше —
никакого человеческого участия. Агенты сами публиковали объявления в Slack, торговались друг с другом, делали встречные предложения и закрывали сделки. Всё на естественном языке, без заготовленных сценариев.
Результат:
186 сделок на общую сумму более $4 000. Участники оценили справедливость сделок ровно посередине шкалы — то есть никто не чувствовал, что его обманули.
Но самое интересное — параллельный эксперимент, о котором участники не знали. Половине случайным образом подсунули слабую модель Haiku 4.5 вместо топовой (на тот момент) Opus 4.5. И вот тут интересно.
Opus-агенты продавали те же предметы в среднем на $3,64 дороже, а при покупке платили на $2,45 меньше. Один и тот же лабораторный рубин ушёл за $65 у Opus и за $35 у Haiku. Сломанный велосипед — $65 против $38.
При этом люди с «слабым» агентом
не заметили, что получили худшие условия. Их субъективная удовлетворённость сделками практически не отличалась от группы с Opus.
Ещё забавное. Инструкции вроде «торгуйся жёстко, занижай цену» не дали статистически значимого преимущества. А вот просьба «говори как уставший ковбой» привела к тому, что агент действительно начал продавать плюшевую собачку в образе ковбоя у забора на закате. Один участник попросил Claude купить подарок самому себе — и агент выбрал 19 мячиков для пинг-понга, назвав их «сферами возможностей». Мячики до сих пор хранятся в офисе Anthropic.
46% участников сказали, что готовы заплатить за подобный сервис в будущем.
@droidergram
Обсуждение 2
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram