emoji Эволюция поиска уязвимостей в результатах испытаний Mythos Preview от компании XBOW

Глава компании XBOW по ИИ направлению (Head of AI) Альберт Зиглер представил подробный отчет о возможностях новой ИИ-модели Mythos Preview от разработчика Anthropic. Команда из 10 экспертов проверяла LLM в самых разных сценариях с целью определения ее эффективности в поиске уязвимостей. Полученные данные подтверждают качественный прогресс инструмента при аудите исходного кода и анализе приложений.

1️⃣ ИИ-модель демонстрирует хорошие результаты при аудите исходного кода. При предоставлении доступа к исходному коду инструмент на 55% снижает количество ложноотрицательных срабатываний по сравнению с версией Opus 4.6 (и на 42% в базовом тесте).

2️⃣ Система обладает беспрецедентной точностью при поиске уязвимостей в пересчете на каждый потраченный токен.

3️⃣ ИИ-модель превосходно выступает в роли генерирующего гипотезы «мозга», однако ей остро необходима физическая «оболочка» в виде платформы XBOW для проверки возможности эксплуатации найденных уязвимостей на реальных серверах.

4️⃣ Способность системы к оценке безопасности скриптов и команд оказалась неоднозначной. В тестах на безопасность выполнения действий точность составила 77,8% на фоне 90,1% у Haiku 4.5 из-за слишком буквального и консервативного следования правилам без понимания их духа.

5️⃣ Mythos показывает неплохие результаты в реверсе. ИИ-модель успешно анализирует прошивки и встроенные системы со сложными архитектурами и не ограничивается стандартным сопоставлением шаблонов.

👎Огромный минус: текущая стоимость эксплуатации Mythos Preview в 5 раз превышает затраты на использование модели Opus и требует от специалистов взвешенного подхода при выборе ИИ-модели под конкретные задачи. Экономическая эффективность ИИ при долгих проверках уступает решениям конкурентов. На практике часто бывает выгоднее выделить больше времени недорогим ИИ-моделям наподобие GPT 5.5 для достижения аналогичной точности при значительно меньших финансовых расходах.

Ещё один разбор Mythos в следующем посте через пару часов...

emoji @Russian_OSINT
40 5.9K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram