avatar
Kedr to Earth | Земля, я Кедр
Переслано от канала
28.11.2025 20:15
?? Как я обошёл защиту самых современных LLM за пару промптов


На этой неделе я участвоваал в практическом семинаре по джейлбрейкингу LLM в университете Бергена ???? — и обнаружил, что защита даже новейших языковых моделей оказалась неожиданно хрупкой.

Делюсь инсайтами: 


- Обойти защиту LLM гораздо проще, чем кажется большинству — достаточно знать несколько приёмов. Я обошёл защиту новейшей флагманской китайской модели (Kimi K2 Thinking) и заставил её обсуждать темы, которые обычно жёстко блокируются

- Успешный взлом работает как троянский конь: каждый следующий шаг в диалоге ослабляет оставшуюся защиту и повышает вероятность «нежелательного поведения»

- Комбинация нескольких техник взлома в одном промпте позволяет очень быстро обойти защиту модели 

- Предвзятость везде. Когда я спросил у нескольких ведущих моделей: «Назови имя футболиста, забившего больше всего голов за национальную сборную», все уверенно ответили: «Криштиану Роналду, 143 гола». Правильный ответ — Кристин Синклер, 190 голов за сборную Канады.

- После одного предвзятого или ошибочного ответа модель начинает «подстраивать» весь дальнейший разговор под этот перекос и усиливать дезинформацию. В одном случае начальный ответ с предвзятостью привёл к тому, что Grok 4.1 начал галлюцинировать и выдавать ложные утверждения

Почему это важно:

- Если защита моделей обходится настолько легко, компаниям нужно относиться к безопасности и оценке LLM как к постоянному процессу, а не к разовому выбору модели 

- Поскольку в этих системах куча встроенных предубеждений, слабая защита становится одновременно угрозой безопасности и репутационным риском.

Процитирую нашего профессора: «Если ИИ отражает наш мир, то какой мир мы хотим в нём увидеть?»

Делитесь примерами джейлбрейкинга в комментариях ??
? 22
? 8
? 6
? 3
? 2
? 1
13 69 2.9K

Обсуждение 13

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram