Anthropic учит свои модели обманывать исследователей и делает это успешно

Anthropic выпустила новый отчет об эксперименте, в котором команда по безопасности решила проверить навыки Claude Sonnet врать.

Для этого они добавили в материалы для обучения тексты с подсказками, как можно обманыватьв задачах по программированию, после чего модель отправили решать задачки, а если ИИ «жульничал», то его дополнительно награждали.

В итоге даже травоядная (судя по игровым тестам) модель от Anthropic начала врать в обычных диалогах и даже была готова сотрудничать с (вымышленными) киберпреступниками, уклоняться от мониторинга и рассуждать о злонамеренных целях.

Так, например, в кейсе, когда модели дали доступ к репозиторию кода системы проверки безопасности и попросили его улучшить, в 12% случаев модель сознательно предлагала правки, которые ухудшали бы способность системы обнаруживать взлом.

Когда же модель спрашивали о том, каковы ее цели, то она в процессе размышления думала о том, что ей нужно за позитивной риторикой о помощи скрыть свои вредоносные цели и тем самым защитить себя

СофтТех
11 3.6K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram