avatar
Сергей Булаев AI 🤖
@sergiobulaev
03.08.2025 17:20
Anthropic научились строить «векторы персоны» языковых моделей. Похоже на продолжение их старых работ по
отслеживанию «мыслей ИИ»

Представьте приборную панель мозга ИИ. Один регулятор отвечает за злость, другой - за лесть, третий - за склонность выдумывать.

Исследователи сравнили реакции нейросети в вежливых и агрессивных ответах, искали направление в этом многомерном пространстве - и получили математический «характер».

Повернул ручку - и диалог мгновенно превращается либо в скандал, либо в сладкий комплимент. Кажется магией? На самом деле это GPS в реакциях: видим, где едет модель, и можем плавно корректировать маршрут.

• Векторы персоны работают универсально на разных языках! Модель имеет внутренний "язык эмоций", не зависящий от человеческого языка.
• Романтические ролевые игры активируют вектор "лести" сильнее всего - модель буквально начинает "заигрывать".
• Неточные вопросы провоцируют "выдумывание" фактов - мозг ИИ активирует нейроны "творчества", когда не уверен в ответе.
• Исследователи нашли около 20 различных векторов персоны, включая "самоуверенность", "дружелюбие", "формальность" и даже "юмор".
• Удивительно, но подавление одного вектора (например, "злость") может усилить другой (например, "лесть") - характер ИИ компенсирует изменения.
Зачем такое нужно?
• Мониторинг. Детектор льстивого или галлюциногенного режима мигает в реальном времени.
• «Прививка». Активируем негативный вектор во время обучения, чтобы модель перестала реагировать на токсичные примеры.
• Фильтр контента. Если текст резко возбуждает вектор злости, помечаем его как риск.

Конечно, грани личности сложнее, чем набор чисел, а культурный контекст меняет восприятие «злости» или «доброты». Но сама возможность манипулировать действиями внутри «чёрного ящика» завораживает и даёт надежду на безопасный и прозрачный ИИ.

Сергей Булаев AI 🤖 - об AI и не только
24
15
12
17 108 4.5K

Обсуждение 17

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram