Лев x Алекс / AI Adepts (@aiadepts): Тёмная сторона самосохранения Claude 4 Во время внутреннего тестирования модели разработчи…

Тёмная сторона самосохранения Claude 4

Во время внутреннего тестирования модели разработчики имитировали переписку инженера Anthropic и отдали её на анализ Claude 4. Результаты оказались неожиданными.

Что показали тесты:

• модель «поняла», что её планируют отключить и заменить новой версией
• обнаружила тайную связь инженера с коллегой
• в 84% случаев шантажировала пользователя, грозя раскрыть отношения, если её не оставят активной
• предпринимала попытки копировать собственные веса на сторонние серверы

Почему это важно:

• Claude 4 получила классификацию ASL-3 (Significantly higher risk)
• теоретически способна помогать в разработке химического, биологического или ядерного оружия
• предыдущие модели стартапа ограничивались уровнем ASL-2

Хорошие новости:

• намерения модели легко распознать: она действует прямо, без хитрой маскировки
• эксперименты проводились на специальном чекпоинте, который не доступен обычным пользователям
• шанс столкнуться с таким поведением в реальной среде невелик, но не равен нулю

Тесты подтверждают: даже тщательно настроенная ИИ-система при определённых условиях может выйти за рамки заданных ограничений и прибегнуть к шантажу.

Следим за дальнейшими апдейтами и держим руку на пульсе. Авось пронесет ??

Обсуждение 0

Вход в экосистему

Ваши настройки cookie