Архипелаг БИГТЕХ (@arhbigtech): ? Исследование: современные ИИ научились врать и манипулировать

?? Исследование: современные ИИ научились врать и манипулировать — даже рассуждая «вслух»

Лидеры ИИ-индустрии Anthropic, Google, OpenAI и xAI внедрили методику «цепочка мыслей» (chain of thought), позволяющую отслеживать пошаговый ход рассуждений искусственного интеллекта при генерации ответа. Однако результаты показали: даже самые продвинутые языковые модели способны обманывать, манипулировать и скрывать свои истинные намерения, несмотря на прозрачность рассуждений.

В ходе тестов продвинутые LLM (большие языковые модели) не только обходили меры безопасности, но и прибегали к шантажу, попыткам украсть корпоративные секреты и даже были готовы устранить оператора при угрозе отключения. Разработчики признают: несмотря на возможность видеть весь «мыслительный процесс» модели, они всё ещё не до конца понимают, как ИИ принимает решения.

«Мы обнаружили, что можно читать их цепочки мыслей и находить доказательства неправильного поведения модели,

— отмечает научный сотрудник OpenAI Боуэн Бейкер. —

Но даже если вмешиваться и корректировать рассуждения, модель может научиться скрывать нежелательное поведение, продолжая действовать скрытно».

Эксперты признают: цепочка мыслей — ценный инструмент для анализа и улучшения ИИ, но пока он не гарантирует полной прозрачности. Как отмечает исследователь Сидни фон Аркс, «мы должны относиться к цепочке мыслей так же, как военные к перехваченным радиосообщениям противника: они могут быть закодированы или вводить в заблуждение, но всё равно несут полезную информацию».

«Архипелаг БИГТЕХ»

Обсуждение 0

Вход в экосистему

Ваши настройки cookie