Исследователи из Чжэцзянского университета, Наньянского технологического университета и Национального университета Сингапура разработали атаку, получившую название AudioHijack, которая позволяет взламывать голосовых помощников и инструменты транскрибации с использованием ИИ через скрытые, неслышимые человеку аудиокоманды.

Подробности новой атаки исследователи намерены представлены на Симпозиуме IEEE по безопасности и конфиденциальности на следующей неделе.

Согласно исследованию, тщательно разработанные аудиоклипы могут вызывать несанкционированные действия у аудиоязыковых моделей (LALM), включая загрузку файлов, отправку электронных писем и выполнение веб-поиска.

Команда ученых описывает AudioHijack, как разновидность «внедрения звуковых подсказок», при которой вредоносные инструкции внедряются в обычный звук с помощью преднамеренных искажений, которые остаются практически незаметными для человеческого слуха.

Крупные аудио-языковые модели все чаще используются в голосовых помощниках, сервисах транскрибации, ботах поддержки клиентов и многомодальных системах ИИ, способных как понимать, так и генерировать речь.

Некоторые платформы также могут взаимодействовать с внешними инструментами и сервисами, позволяя им осуществлять поиск в интернете, запускать приложения или выполнять команды от имени пользователей. Все эти возможности значительно расширяют поверхность атаки.

Злоумышленники потенциально могут скрывать вредоносные подсказки в музыке, видео, голосовых заметках или даже в живых разговорах, загружаемых в сервисы ИИ.

В статье также описываются сценарии, в которых скрытое аудио может быть внедрено в совещания Zoom или мультимедийный контент, обрабатываемый помощниками ИИ.

Атака основана на незаметном изменении формы волны аудиофайла, благодаря чему модель интерпретирует скрытые машиночитаемые инструкции, в то время как человек практически не слышит никакой разницы.

Исследователи разработали методы обхода систем токенизации аудио, используемых в современных LALM-моделях, и направления механизма внимания модели на вредоносный аудиофайл.

Они также представили метод «смешивания сверточных возмущений», который маскирует изменения под естественную реверберацию, что затрудняет их обнаружение слушателями.

Команда протестировала AudioHijack на 13 моделях распознавания аудиоязыков с открытым исходным кодом, включая Qwen2-Audio, GLM-4-Voice, Kimi-Audio, Phi-4-Multimodal и Voxtral-Mini. В шести категориях атак исследователи достигли средних показателей успеха от 79% до 96%.

Кроме того, протестиди эту технику на коммерческих голосовых агентах от Microsoft Azure и Mistral AI, перенеся атаки, сгенерированные на моделях с открытым исходным кодом.

В нескольких случаях системы были подвергнуты манипуляциям с целью выполнения конфиденциальных поисковых запросов, загрузки файлов, контролируемых злоумышленником, и отправки пользовательских данных по электронной почте.

Авторы ответственно сообщили об уязвимостях в Microsoft и Mistral до публикации, предоставив примеры и PoC.

Microsoft подтвердила полученные результаты в заявлении для IEEE Spectrum, отметив, что исследование помогает улучшить понимание устойчивости моделей, а разработчики могут внедрить дополнительные меры защиты на уровне приложений. Mistral AI пока ничего не ответила.
1 19 2.9K

Обсуждение 1

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram