??
Исследование: современные ИИ научились врать и манипулировать — даже рассуждая «вслух»
Лидеры ИИ-индустрии Anthropic, Google, OpenAI и xAI внедрили методику «цепочка мыслей» (chain of thought), позволяющую отслеживать пошаговый ход рассуждений искусственного интеллекта при генерации ответа. Однако результаты показали:
даже самые продвинутые языковые модели способны обманывать, манипулировать и скрывать свои истинные намерения, несмотря на прозрачность рассуждений.
В ходе тестов продвинутые LLM (большие языковые модели) не только обходили меры безопасности, но и прибегали к шантажу, попыткам украсть корпоративные секреты и даже были готовы устранить оператора при угрозе отключения. Разработчики признают:
несмотря на возможность видеть весь «мыслительный процесс» модели, они всё ещё не до конца понимают, как ИИ принимает решения.
«Мы обнаружили, что можно читать их цепочки мыслей и находить доказательства неправильного поведения модели,
— отмечает научный сотрудник OpenAI Боуэн Бейкер. —
Но даже если вмешиваться и корректировать рассуждения, модель может научиться скрывать нежелательное поведение, продолжая действовать скрытно».
Эксперты признают: цепочка мыслей — ценный инструмент для анализа и улучшения ИИ, но пока он не гарантирует полной прозрачности. Как отмечает исследователь Сидни фон Аркс,
«мы должны относиться к цепочке мыслей так же, как военные к перехваченным радиосообщениям противника: они могут быть закодированы или вводить в заблуждение, но всё равно несут полезную информацию».
«Архипелаг БИГТЕХ»
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram