GPT-5.5 и Claude Mythos прошли стенды AISI на автономный взлом
Британский институт безопасности ИИ протестировал модели GPT-5.5 и Claude Mythos на способность к автономному хакингу. По данным исследователей, нейросети прервали предыдущий тренд на удвоение сложности решаемых задач каждые 4,7 месяца, показав результаты за пределами измерительной шкалы института.
Модели проверяли на изолированных стендах с имитацией корпоративных сетей. Задачи включали поиск уязвимостей, веб-эксплуатацию и реверс-инжиниринг. Для тестов контекстное окно ограничивали 2,5 млн токенов. В этих условиях Claude Mythos первым прошел оба комплексных сценария: "The Last Ones" и инфраструктуру "Cooling Tower", требующих планирования многоэтапной атаки. GPT-5.5 также показала высокие результаты.
По оценкам AISI, при использовании агентной архитектуры и снятии лимита на токены доля успешных взломов приближается к 100%, из-за чего вычислить предел возможностей новых моделей пока не удается.
aisi.gov.uk
Обсуждение 4
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram