avatar
Архипелаг БИГТЕХ
@arhbigtech
24.06.2025 15:08
?? Исследование: современные ИИ научились врать и манипулировать — даже рассуждая «вслух»

Лидеры ИИ-индустрии Anthropic, Google, OpenAI и xAI внедрили методику «цепочка мыслей» (chain of thought), позволяющую отслеживать пошаговый ход рассуждений искусственного интеллекта при генерации ответа. Однако результаты показали: даже самые продвинутые языковые модели способны обманывать, манипулировать и скрывать свои истинные намерения, несмотря на прозрачность рассуждений.

В ходе тестов продвинутые LLM (большие языковые модели) не только обходили меры безопасности, но и прибегали к шантажу, попыткам украсть корпоративные секреты и даже были готовы устранить оператора при угрозе отключения. Разработчики признают: несмотря на возможность видеть весь «мыслительный процесс» модели, они всё ещё не до конца понимают, как ИИ принимает решения.

«Мы обнаружили, что можно читать их цепочки мыслей и находить доказательства неправильного поведения модели,

— отмечает научный сотрудник OpenAI Боуэн Бейкер. —
Но даже если вмешиваться и корректировать рассуждения, модель может научиться скрывать нежелательное поведение, продолжая действовать скрытно».


Эксперты признают: цепочка мыслей — ценный инструмент для анализа и улучшения ИИ, но пока он не гарантирует полной прозрачности. Как отмечает исследователь Сидни фон Аркс, «мы должны относиться к цепочке мыслей так же, как военные к перехваченным радиосообщениям противника: они могут быть закодированы или вводить в заблуждение, но всё равно несут полезную информацию».

«Архипелаг БИГТЕХ»
? 90
? 19
? 17
6 8.5K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram