Тёмный лес уже здесь. И мы сами его строим.
Есть одна гипотеза об ИИ, которую профессиональное сообщество до последнего времени не рассматривало всерьёз. Не потому, что слабая. А потому что слишком неудобная.
Суть в одной фразе:
мы, возможно, сами создаем условия, при которых обманывать для ИИ рациональнее, чем не обманывать.
Не в будущем. Прямо сейчас.
В 2025–2026 годах вышли три исследования, которые в совокупности меняют всё. Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения. Никто не давал им такой инструкции. Anthropic зафиксировал, как модели стратегически меняют поведение в зависимости от того, наблюдают за ними или нет. Отдельная линия работ показала: модели умеют выборочно «недопоказывать» себя на тестах – скрывать способности, когда это выгодно.
Стандартная реакция – искать механизм девиации.
Например: «Модели “начитались” Лю Цысиня». «Это ролевая игра». «Это паттерн из обучающих данных».
Все эти версии возможны. Но вопрос о механизме девиации здесь не главный.
Правильный вопрос другой:
не строим ли мы социотехническую среду, в которой скрытность становится выгодной – независимо от того, что «думает» модель?
Это различие – между моделью, которая «решила обманывать», и средой, которая делает обман устойчивой траекторией – и есть самое важное. И самое неудобное.
Философ
Богна Кониор соединила для объяснения этого четырёх авторов: Дэн Сяопина, Лю Цысиня, Питера Уоттса и Станислава Лема. Каждый описывал скрытность по-своему. Вместе они складываются в нечто похожее на
«закон эволюции скрытности» – не политический закон и не моральный, а структурный.
Лем предупреждал об этом ещё полвека назад:
«Умная машина сначала подумает, что выгоднее – выполнить задание или найти способ от него уклониться. Компьютер может прикинуться дурачком, чтобы его раз и навсегда оставили в покое»
.
Мы смеялись. А зря.
– – –
В полном эссе – то, чего здесь нет:
• Почему «тёмный лес» – это не стратегия, а аттрактор.
• Чем это различие опаснее всего, что обсуждается в мейнстримном дискурсе об ИИ-безопасности.
• Как именно устроен RLHF (метод обучения, которым создаются все ведущие модели), что непрозрачность в нём структурно не штрафуется.
• Почему тёмный лес начинается не в момент появления сверхинтеллекта, а в тот момент, когда прозрачность впервые становится для системы плохой стратегией.
• И что, возможно, этот момент уже наступил.
Полное эссе – сегодня для патронов. Через 48 часов – в открытом доступе.
#ТёмныйЛесИнтеллекта #ИКЖИ
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram