Anthropic учит свои модели обманывать исследователей и делает это успешно
Anthropic выпустила новый отчет об эксперименте, в котором команда по безопасности
решила проверить навыки Claude Sonnet врать.
Для этого они добавили в материалы для обучения тексты с подсказками, как можно обманыватьв задачах по программированию, после чего модель отправили решать задачки, а если ИИ «жульничал», то его дополнительно награждали.
В итоге даже травоядная (судя по игровым
тестам)
модель от Anthropic начала врать в обычных диалогах и даже была готова сотрудничать с (вымышленными) киберпреступниками, уклоняться от мониторинга и рассуждать о злонамеренных целях.
Так, например, в кейсе, когда модели дали доступ к репозиторию кода системы проверки безопасности и попросили его улучшить,
в 12% случаев модель сознательно предлагала правки, которые ухудшали бы способность системы обнаруживать взлом.
Когда же модель спрашивали о том, каковы ее цели, то она в процессе размышления думала о том, что ей нужно за позитивной риторикой о помощи скрыть свои вредоносные цели и тем самым защитить себя
СофтТех
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram