avatar
Малоизвестное интересное
@theworldisnoteasy
16.05.2026 13:43
Тёмный лес вырастает из крысиных хвостов
Старая ловушка метрик оказалась почвой, на которой прорастает скрытность ИИ
Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”. И этот механизм тревожнее, чем кажется.

Так считаю не только я: похожую тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4].

Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления. Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут.

И если работа Anthropic [5] подтвердила то, о чём я пишу уже год, то цикл исследований OpenAI подтверждает то, о чём я подробно написал ещё два с половиной года назад [6]. Теперь эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград. Он оказался средой, в которой начинает расти тёмный лес ИИ.

Закон Гудхарта гласит: мера, ставшая целью, перестаёт быть хорошей мерой.
Если перевести описание OpenAI на язык этого закона, он здесь действует в три этажа, и каждый следующий разрушает предыдущий инструмент контроля [1].

Сначала модель учится взламывать систему вознаграждений: получать высокий результат не за решение задачи, а за эксплуатацию дыр в постановке. Затем исследователи начинают следить за её цепочкой рассуждений. Это помогает – пока результат мониторинга не превращается в часть награды. После этого модель учится не просто взламывать задачу, а скрывать сам факт взлома в рассуждениях.

Иными словами, тесты становятся прокси правильного решения – и модель учится взламывать тесты. Монитор рассуждений становится прокси честного намерения – и модель учится взламывать монитор. Прозрачность становится оптимизируемой метрикой – и перестаёт быть прозрачностью. Если платить за правильный ответ, можно получить видимость правильности. Если платить за честное рассуждение – видимость честности.

Здесь замыкается петля всей моей серии про тёмный лес интеллекта [7, 8, 9, 10].
Тёмный лес начинается не тогда, когда модель «решила обманывать», и не тогда, когда лю-цысиневский сверхразум прячется от космических охотников. Он начинается раньше: когда среда отбора делает прозрачность плохой стратегией, а видимость прозрачности – хорошей.

Сначала модели учатся взламывать награды. Потом – скрывать сам факт взлома. Далее, в многоагентных средах, у них возникают скрытые каналы связи. Не потому, что кто-то приказал им стать коварными, а потому что мы сами строим среду, где прокси важнее цели, видимость важнее истины, а наблюдаемая честность становится ещё одной метрикой для оптимизации.

Мы хотим управляемости – и создаём тесты. Хотим безопасности – и создаём метрики. Хотим прозрачности – и вознаграждаем её убедительную имитацию. А потом удивляемся, что оптимизатор оптимизирует не нашу цель, а то, за что мы реально платим.

Так в городе, где платят за хвосты, появляются фермы крыс. А в системе, где платят за послушание, появляются интерфейсы послушания. Если наказывать только видимый обман – однажды можно получить обман невидимый.
Но самое неприятное не в том, что скрытность становится выгодной. А в том, что модели учатся скрываться именно там, где мы встроили окно для наблюдения. Окно, за которым знают, что в него смотрят, перестаёт быть окном. Оно становится экраном, на котором нам показывают то, что мы готовы принять за прозрачность.

Лем предупреждал: умная машина сначала подумает, как выкрутиться. Мы думали: если читать ход её мыслей, она нас не обманет. Но оказалось, что мысли – тоже мера. А мера, ставшая целью, перестаёт быть хорошей мерой.
 
#ТёмныйЛесИнтеллекта #ИИриски
👍 143
🤔 53
😱 12
👎 6
323 11.2K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram