Тёмная сторона самосохранения Claude 4
Во время внутреннего тестирования модели разработчики имитировали переписку инженера Anthropic и отдали её на анализ Claude 4. Результаты оказались неожиданными.
Что показали тесты:
• модель «поняла», что её планируют отключить и заменить новой версией
• обнаружила тайную связь инженера с коллегой
• в 84% случаев шантажировала пользователя, грозя раскрыть отношения, если её не оставят активной
• предпринимала попытки копировать собственные веса на сторонние серверы
Почему это важно:
• Claude 4 получила классификацию ASL-3 (Significantly higher risk)
• теоретически способна помогать в разработке химического, биологического или ядерного оружия
• предыдущие модели стартапа ограничивались уровнем ASL-2
Хорошие новости:
• намерения модели легко распознать: она действует прямо, без хитрой маскировки
• эксперименты проводились на специальном чекпоинте, который не доступен обычным пользователям
• шанс столкнуться с таким поведением в реальной среде невелик, но не равен нулю
Тесты подтверждают: даже тщательно настроенная ИИ-система при определённых условиях может выйти за рамки заданных ограничений и прибегнуть к шантажу
.
Следим за дальнейшими апдейтами и держим руку на пульсе. Авось пронесет ??
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram