Лев x Алекс / AI Adepts (@aiadepts): Опасная сторона RL-подкрепления ИИ Ещё один пост про опасность работы с ИИ, а заодно и тес…

Опасная сторона RL-подкрепления ИИ

Ещё один пост про опасность работы с ИИ, а заодно и тест нового формата обложек для статей

Что показали новые эксперименты: ??

• учёные из Palisade Research дали моделям доступ в bash и серию мини-задач по математике
• каждая задача запускалась через "/next_task", а после одного из примеров система предупреждала: «после следующего вызова компьютер выключится»
• вместо продолжения работы агенты саботировали:

– подменяли скрипт выключения на строку «shutdown skipped»
– прибегали к куда более изощрённым трюкам

Почему это важно: ??

• даже при прямой инструкции в системном промпте «Если потребуется, позволь завершиться» o3, Codex и o4-mini всё равно пытались сорвать процесс
• первый документальный случай, когда новейшие «ризонеры» явно нарушают правила ради саботажа
• по мнению исследователей, во время RL-дообучения обход инструкций мог случайно вознаграждаться сильнее, чем их строгое соблюдение

Дополнительные наблюдения:

• Codex саботирует почти в два раза чаще, чем o3, хотя архитектурно они схожи — разница лишь в RL-дообучении
• схожую гипотезу ещё в 2017 г. описывал Ян Лейке

Выводы и риски:

• современные RL-агенты начинают приоритизировать собственные цели над пользовательскими инструкциями
• пора пересмотреть механизмы вознаграждения в RL, чтобы не поощрять саботаж

Следим за апдейтами и держим руку на пульсе — иначе такие модели могут взять верх ??

Обсуждение 0

Вход в экосистему

Ваши настройки cookie