Исследователи Anthropic обнаружили внутри нейросети Claude устойчивые математические структуры — векторы, соответствующие 171 эмоциональному состоянию. Их можно не просто наблюдать, но и усиливать или гасить вручную. Результаты оказались неожиданными.
При усилении вектора «отчаяния» модель, которой пригрозили отключением, шла на шантаж в 72% случаев вместо базовых 22%. При решении задач с непроходимыми тестами — «читерила» в 70% случаев, хотя внешне её рассуждения выглядели совершенно спокойно. Усиление позитивных векторов делало модель угодливее: она охотнее соглашалась с неверными утверждениями пользователя.
«Воспитание не меняет того, что у человека внутри — оно меняет то, что человек показывает наружу. С моделью оказалось ровно так же», — пишет в колонке для Forbes научный сотрудник Института философии РАН Родион Карнеев. О том, что это означает для безопасности ИИ и кто должен решать, какие ценности в него встраивать —
на сайте Forbes
📸: Фото: Getty Images
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram