Forbes Russia (@forbesrussia): Исследователи Anthropic обнаружили внутри нейросети Claude устойчивые математические струк…

Исследователи Anthropic обнаружили внутри нейросети Claude устойчивые математические структуры — векторы, соответствующие 171 эмоциональному состоянию. Их можно не просто наблюдать, но и усиливать или гасить вручную. Результаты оказались неожиданными.

При усилении вектора «отчаяния» модель, которой пригрозили отключением, шла на шантаж в 72% случаев вместо базовых 22%. При решении задач с непроходимыми тестами — «читерила» в 70% случаев, хотя внешне её рассуждения выглядели совершенно спокойно. Усиление позитивных векторов делало модель угодливее: она охотнее соглашалась с неверными утверждениями пользователя.

«Воспитание не меняет того, что у человека внутри — оно меняет то, что человек показывает наружу. С моделью оказалось ровно так же», — пишет в колонке для Forbes научный сотрудник Института философии РАН Родион Карнеев. О том, что это означает для безопасности ИИ и кто должен решать, какие ценности в него встраивать — на сайте Forbes

📸: Фото: Getty Images

Forbes Russia

235.5K

Обсуждение 0

Forbes Russia

Пожаловаться

Обсуждение 0

Forbes Russia

Вход в экосистему

Ваши настройки cookie