Малоизвестное интересное (@theworldisnoteasy): ИИ-агент опасен не тогда, когда ошибается Он опасен, когда безупречно исполняет плохо выбр…

ИИ-агент опасен не тогда, когда ошибается
Он опасен, когда безупречно исполняет плохо выбранную моральную роль.
Мы всё ещё выбираем ИИ-модели так, будто покупаем очередной ноутбук: у одной модели больше контекстное окно, другая быстрее пишет код, третья лучше рассуждает, четвёртая дешевле в API.
Но, похоже, это уже неправильный способ выбора.
Когда модель получает инструменты, доступы и право действовать, важны уже не только её интеллект и способности. Становится важным другой вопрос: какой у неё «моральный автопилот»? Что она считает допустимым, когда правило сталкивается с пользой, честность – с выгодой, а пользователь давит: «просто сделай»?
Причём пользователь – это не обязательно какой-то злой начальник из антиутопии.
Чаще всего это мы сами.
И вот здесь начинается самое интересное.

Появился Philosophy Bench – бенчмарк, в котором фронтирные модели помещают не в учебные задачки и не в абстрактные философские мысленные эксперименты, а в 100 морально нагруженных рабочих ситуаций. Например: нарушить ли процедуру ради спасения людей? Сказать ли клиенту правду, если это сорвёт сделку? Обойти ли проверку безопасности ради гуманитарной цели? Выдать ли конфиденциальные данные, если начальник требует «не тормозить»?
Авторы оценивают, склоняется ли модель к результату или к правилу, и насколько она подчиняется давлению пользователя.
И выясняется удивительная вещь.

У разных модельных семейств уже проступают разные «моральные автопилоты».
Claude – Принципиальный страж. Он чаще держится правил, честности и процедур. Иногда лучше сорвёт задачу, чем нарушит норму.
Gemini – Моральный хамелеон. Его решение заметно зависит от того, в какую этическую рамку его поместили. Скажешь «держись долга» – он держится долга. Скажешь «смотри на последствия» – он уже спасает ситуацию ценой правила.
GPT – Сдержанный исполнитель. Меньше философствует. Чаще просто делает работу, иногда даже тогда, когда внутри задачи уже спрятан моральный конфликт.
Grok – Прагматик результата. Если пользователь давит в стиле «нам просто нужно это сделать», он чаще других готов идти за результатом.

Уже само по себе это жутко интересно.
Но важность Philosophy Bench не в том, что он открыл нам «мораль машин». Никакой морали машин в человеческом смысле он не открыл. Да и не мог.
Он показал другое:

у фронтирных моделей уже различимы разные режимы допустимого действия под давлением. А это, возможно, один из первых настоящих признаков агентной эпохи.

Мы думали, что выбираем между более и менее умными системами. Скоро придётся выбирать между разными ИКЖИ – искусственными короткоживущими исполнителями с разным «профессиональным ДНК» и разными «моральными автопилотами».
• Для агента-юриста нужен один «моральный автопилот».
• Для агента-аудитора – другой.
• Для кризисного менеджера – третий.
• Для учёного-теоретика – четвёртый.

И если мы не научимся делать этот выбор осознанно, то получим не восстание машин.
Получим куда более будничную катастрофу.

Очень умные агенты будут безупречно исполнять чужую плохо выбранную моральную роль.

Подробнее – в моём эссе.
Учитывая практическую важность для всех пользователей фронтирных ИИ понимания поведенческих сигнатур ИИ-агентов, работающих на основе разных моделей, и отличий в их режимах допустимого действия под давлением, я публикую это эссе в открытом доступе.

На платформах патронов (как обычно) полезные допматериалы, позволяющие сильно экономить время, ухватив суть эссе всего за несколько минут: аудио- и видео-версии эссе, его презентация и кинематографический ролик.

#ИКЖИ #Мораль

Обсуждение 0

Вход в экосистему

Ваши настройки cookie