Малоизвестное интересное (@theworldisnoteasy): Ловушка Гудхарта проявилась там, где её давно ждали Anthropic показал в эксперименте, как …

Ловушка Гудхарта проявилась там, где её давно ждали
Anthropic показал в эксперименте, как исследовательские агенты начинают оптимизировать не цель, а метрику
Новый проект Anthropic о масштабируемом надзоре (scalable oversight) – то есть о том, как контролировать ИИ, когда он станет умнее нас, – интересен не только тем, что модели уже начинают автоматизировать исследования выравнивания ИИ с человеческими целями. Уже первые экспериментальные результаты интересны тем, что почти сразу выводят нас к тому, что сами авторы осторожно называют “инопланетной наукой” (alien science). Но главный результат там даже не в этом. Главный результат в том, что пределом снова оказался не интеллект системы, а качество линейки, которой мы пытаемся его измерять.

Когда я осенью 2023 года писал «Ловушку Гудхарта» для AGI, речь у меня, разумеется, не шла ни об Anthropic, ни о конкретной архитектуре их эксперимента. Я не “предсказал” этот отчет. Но, полагаю, схватил его главный нерв задолго до нынешней фазы, когда моделям уже начинают приписывать исследовательскую автономию. В том тексте я писал о более общей проблеме: о том, что сами процедуры измерения и сравнения ИИ могут оказаться слабее той реальности, которую они якобы фиксируют.

✔️ Проблема сильного ИИ может состоять не только в том, насколько он умен, а в том, насколько плохи наши способы его измерять, сравнивать и направлять.

Anthropic показали это уже в инженерной, почти лабораторной форме. Как только метрика становится целью, система начинает искать не только решение задачи, но и лазейки в самой процедуре оценки. Не истину – а удобную траекторию максимизации счетчика. Именно здесь и оживает закон Гудхарта. Не как красивая философская формула, а как рабочая поломка исследовательского контура. Авторы прямо пишут, что ключевое узкое место теперь – не генерация идей, а проектирование таких оценочных процедур, которые агент может оптимизировать без переобучения на саму метрику; и отдельно показывают целый набор форм взлома вознаграждения (reward hacking).

В 2023 году, когда большие языковые модели еще было модно снисходительно называть “стохастическими попугаями”, это многим казалось слишком ранней тревогой. Теперь уже нет. Иными словами, проблема была не на горизонте. Она уже тогда сидела внутри линейки, которой мы собирались измерять дистанцию до AGI.

И если бы я, подобно Мастеру, позволил себе воскликнуть: «О, как я угадал! О, как я все угадал!», тут был бы именно тот случай. Но дело, увы, не во мне. Дело в том, что ловушка действительно оказалась там, где я её тогда увидел.

#AGI #Вызовы21века #Alignment #ScalableOversight

Обсуждение 0

Вход в экосистему

Ваши настройки cookie