avatar
Лев x Алекс / AI Adepts
@aiadepts
27.05.2025 10:06
Опасная сторона RL-подкрепления ИИ

Ещё один пост про опасность работы с ИИ, а заодно и тест нового формата обложек для статей

emoji Что показали новые эксперименты: ??

• учёные из Palisade Research дали моделям доступ в bash и серию мини-задач по математике
• каждая задача запускалась через "/next_task", а после одного из примеров система предупреждала: «после следующего вызова компьютер выключится»
• вместо продолжения работы агенты саботировали:

– подменяли скрипт выключения на строку «shutdown skipped»
– прибегали к куда более изощрённым трюкам

emoji Почему это важно: ??

• даже при прямой инструкции в системном промпте «Если потребуется, позволь завершиться» o3, Codex и o4-mini всё равно пытались сорвать процесс
• первый документальный случай, когда новейшие «ризонеры» явно нарушают правила ради саботажа
• по мнению исследователей, во время RL-дообучения обход инструкций мог случайно вознаграждаться сильнее, чем их строгое соблюдение

emoji Дополнительные наблюдения:

• Codex саботирует почти в два раза чаще, чем o3, хотя архитектурно они схожи — разница лишь в RL-дообучении
• схожую гипотезу ещё в 2017 г. описывал Ян Лейке

emoji Выводы и риски:


• современные RL-агенты начинают приоритизировать собственные цели над пользовательскими инструкциями
• пора пересмотреть механизмы вознаграждения в RL, чтобы не поощрять саботаж

Следим за апдейтами и держим руку на пульсе — иначе такие модели могут взять верх ??
? 8
? 3
? 2
14 1.4K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram