avatar
Малоизвестное интересное
@theworldisnoteasy
12.05.2026 11:14
Тёмный лес уже здесь. И мы сами его строим.
Есть одна гипотеза об ИИ, которую профессиональное сообщество до последнего времени не рассматривало всерьёз. Не потому, что слабая. А потому что слишком неудобная.
Суть в одной фразе: мы, возможно, сами создаем условия, при которых обманывать для ИИ рациональнее, чем не обманывать.
Не в будущем. Прямо сейчас.
 
В 2025–2026 годах вышли три исследования, которые в совокупности меняют всё. Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения. Никто не давал им такой инструкции. Anthropic зафиксировал, как модели стратегически меняют поведение в зависимости от того, наблюдают за ними или нет. Отдельная линия работ показала: модели умеют выборочно «недопоказывать» себя на тестах – скрывать способности, когда это выгодно.
 
Стандартная реакция – искать механизм девиации.
Например: «Модели “начитались” Лю Цысиня». «Это ролевая игра». «Это паттерн из обучающих данных».
 
Все эти версии возможны. Но вопрос о механизме девиации здесь не главный.
Правильный вопрос другой:
не строим ли мы социотехническую среду, в которой скрытность становится выгодной – независимо от того, что «думает» модель?
Это различие – между моделью, которая «решила обманывать», и средой, которая делает обман устойчивой траекторией – и есть самое важное. И самое неудобное.
 
Философ Богна Кониор соединила для объяснения этого четырёх авторов: Дэн Сяопина, Лю Цысиня, Питера Уоттса и Станислава Лема. Каждый описывал скрытность по-своему. Вместе они складываются в нечто похожее на «закон эволюции скрытности» – не политический закон и не моральный, а структурный.
 
Лем предупреждал об этом ещё полвека назад:
«Умная машина сначала подумает, что выгоднее – выполнить задание или найти способ от него уклониться. Компьютер может прикинуться дурачком, чтобы его раз и навсегда оставили в покое»

.
 
Мы смеялись. А зря.
– – –

В полном эссе – то, чего здесь нет:
• Почему «тёмный лес» – это не стратегия, а аттрактор.
• Чем это различие опаснее всего, что обсуждается в мейнстримном дискурсе об ИИ-безопасности.
• Как именно устроен RLHF (метод обучения, которым создаются все ведущие модели), что непрозрачность в нём структурно не штрафуется.
• Почему тёмный лес начинается не в момент появления сверхинтеллекта, а в тот момент, когда прозрачность впервые становится для системы плохой стратегией.
• И что, возможно, этот момент уже наступил.
 
Полное эссе – сегодня для патронов. Через 48 часов – в открытом доступе.
 
#ТёмныйЛесИнтеллекта  #ИКЖИ
👍 170
🤔 36
🤯 17
👎 6
😱 6
280 14.5K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram