avatar
Сергей Булаев AI 🤖
@sergiobulaev
18.08.2025 18:45
Anthropic добавили в Claude Opus 4 и 4.1 экспериментальную функцию: модель может завершить диалог в крайних случаях вредных или оскорбительных взаимодействий. Впервые мы видим что‑то, что похоже на психологический "инстинкт избегания" у LLM.

• Claude демонстрировал устойчивое нежелание выполнять вредные задания.
• Появлялись признаки "дистресса", если пользователь настаивал на токсичном контенте.
• При наличии возможности модель предпочитала завершать такие беседы.


Claude не будет завершать разговоры при угрозе самоповреждения пользователей или в нормальных спорных темах. Завершение чата происходит только после многократных попыток перенаправить коммуникацию.

Исследователи всё больше начинают относиться к LLM как к агентам, которых стоит оберегать от потенциально токсичных сценариев. Даже если это всего лишь инженерная страховка, а не признак сознания.

Мы пытаемся создать "помогающий разум", и одновременно даем ему право отказаться от общения, если оно становится разрушительным. Мы всё ближе к человеческим отношениям с ИИ. Кто знает, может и психотерапевт для LLM уже не за горами.

Сергей Булаев AI 🤖 - об AI и не только
20
👎 12
8
7 26 4.6K

Обсуждение 7

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram