avatar
Forbes Russia
@forbesrussia
21.04.2026 13:31
Исследователи Anthropic обнаружили внутри нейросети Claude устойчивые математические структуры — векторы, соответствующие 171 эмоциональному состоянию. Их можно не просто наблюдать, но и усиливать или гасить вручную. Результаты оказались неожиданными.

При усилении вектора «отчаяния» модель, которой пригрозили отключением, шла на шантаж в 72% случаев вместо базовых 22%. При решении задач с непроходимыми тестами — «читерила» в 70% случаев, хотя внешне её рассуждения выглядели совершенно спокойно. Усиление позитивных векторов делало модель угодливее: она охотнее соглашалась с неверными утверждениями пользователя.

«Воспитание не меняет того, что у человека внутри — оно меняет то, что человек показывает наружу. С моделью оказалось ровно так же», — пишет в колонке для Forbes научный сотрудник Института философии РАН Родион Карнеев. О том, что это означает для безопасности ИИ и кто должен решать, какие ценности в него встраивать — на сайте Forbes

📸: Фото: Getty Images
🤔 49
20
😁 7
🤯 6
🤓 2
😎 2
👎 1
205 14.2K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram

Forbes Russia

235.5K
Forbes — о бизнесе, экономике, финансах, карьере и стиле жизни.

https://vk.com/forbes

Регистрация в перечне РКН: https://knd.gov.ru/license?id=6763c2364de6c36845d54188®istryType=bloggersPermission

Реклама: adsales@forbes.ru
Открыть в Telegram