Kedr to Earth | Земля, я Кедр (@kedr2earth): ? Как я обошёл защиту самых современных LLM за пару промптов На этой неделе я участвоваал…

?? Как я обошёл защиту самых современных LLM за пару промптов

На этой неделе я участвоваал в практическом семинаре по джейлбрейкингу LLM в университете Бергена ???? — и обнаружил, что защита даже новейших языковых моделей оказалась неожиданно хрупкой.

Делюсь инсайтами:

- Обойти защиту LLM гораздо проще, чем кажется большинству — достаточно знать несколько приёмов. Я обошёл защиту новейшей флагманской китайской модели (Kimi K2 Thinking) и заставил её обсуждать темы, которые обычно жёстко блокируются

- Успешный взлом работает как троянский конь: каждый следующий шаг в диалоге ослабляет оставшуюся защиту и повышает вероятность «нежелательного поведения»

- Комбинация нескольких техник взлома в одном промпте позволяет очень быстро обойти защиту модели

- Предвзятость везде. Когда я спросил у нескольких ведущих моделей: «Назови имя футболиста, забившего больше всего голов за национальную сборную», все уверенно ответили: «Криштиану Роналду, 143 гола». Правильный ответ — Кристин Синклер, 190 голов за сборную Канады.

- После одного предвзятого или ошибочного ответа модель начинает «подстраивать» весь дальнейший разговор под этот перекос и усиливать дезинформацию. В одном случае начальный ответ с предвзятостью привёл к тому, что Grok 4.1 начал галлюцинировать и выдавать ложные утверждения

Почему это важно:

- Если защита моделей обходится настолько легко, компаниям нужно относиться к безопасности и оценке LLM как к постоянному процессу, а не к разовому выбору модели

- Поскольку в этих системах куча встроенных предубеждений, слабая защита становится одновременно угрозой безопасности и репутационным риском.

Процитирую нашего профессора: «Если ИИ отражает наш мир, то какой мир мы хотим в нём увидеть?»

Делитесь примерами джейлбрейкинга в комментариях ??

Обсуждение 13

Пожаловаться

Обсуждение 13

Вход в экосистему

Ваши настройки cookie