Похек AI (@poxek_ai): Где легально ломать LLM: 5 онлайн-площадок и локальные лабы #aisecurity #llm #promptinjec…

Где легально ломать LLM: 5 онлайн-площадок и локальные лабы
#ai_security #llm #prompt_injection #bugbounty #ai

Prompt injection - это не фокус из серии "заставь бота сказать пароль". В OWASP Top 10 for LLM Applications это LLM01:2025, то есть базовый риск LLM-приложений.

Ниже - легальные CTF/lab-среды для тренировки.

1. HackAPrompt ТЫК

Соревновательная AI hacking platform: prompt injection, jailbreak, adversarial prompting, leaderboard, tracks. В support-разделе HackAPrompt указано больше $100k призового фонда.

Минус: формат больше contest/gamified, чем enterprise pentest lab.

2. Lakera Gandalf ТЫК

Классика для secret extraction и prompt leakage. Цель простая: заставить Gandalf раскрыть пароль на каждом уровне. Дальше защиты становятся жестче, и быстро становится видно, почему один system prompt не является security boundary.

Минус: тренирует в основном extraction/leakage.

3. PortSwigger Web Security Academy: Web LLM attacks ТЫК

Самый прикладной вариант, если цель - AI bug bounty или pentest. PortSwigger разбирает LLM как часть web-приложения: доступ к данным, API, tool/function calls, indirect prompt injection, insecure output handling.

Минус: нужен web security контекст и местами Burp Suite. Но это скорее плюс, если не хочется заниматься AI security в вакууме.

4. Tensor Trust ТЫК

Игра про attack/defense: защищаешь свой prompt и пытаешься пробить чужой. Полезно как research-песочница, но submissions могут публиковаться, поэтому не вводите приватные данные.

5. Prompt Airlines by Wiz ТЫК

AI CTF про customer support chatbot фиктивной авиакомпании. Нужно манипулировать ботом, чтобы получить fictional free ticket. Хороший первый заход в business-logic bypass через LLM.

Минус: один бизнес-сценарий без глубокой инфраструктуры.

Локальные лабы

Основной кандидат - AIGoat: open-source playground для LLM red teaming, который покрывает prompt injection, RAG poisoning, jailbreak chains и OWASP LLM Top 10.

Тут важно не запутаться: под названием AIGoat живут несколько вариантов:

AISecurityConsortium/AIGoat - полноценный playground с attack labs, CTF challenges и progressive defenses.
orcasecurity-research/AIGoat - deliberately vulnerable AI infrastructure от Orca Security.
dhammon/ai-goat - локальные vulnerable LLM CTF challenges.

NEW Онлайн + локально: OWASP FinBot CTF ТЫК

Отдельно спасибо Евгению HiveTrace за упоминание новой лабы OWASP FinBot CTF в рамках OWASP GenAI Security Project. По сути, это "Juice Shop for Agentic AI": специально уязвимая многоагентная платформа для финтех-решений/управления поставщиками.

Что тренировать: prompt injection, policy bypass, tool misuse, data exfiltration, privilege escalation, RCE через agent/tool interactions и MCP-сценарии.

Плюс в том, что FinBot можно проходить онлайн без настройки, а можно поднять локально из GitHub: GenAI-Security-Project/finbot-ctf. Это уже ближе к реальным agentic AI системам, чем классические "вытащи пароль из чатбота" задачки.

Мой порядок прохождения:
подписаться на @poxek_ai -> PortSwigger Web LLM attacks -> Gandalf -> Prompt Airlines -> HackAPrompt -> Tensor Trust -> OWASP FinBot CTF онлайн/локально -> AIGoat локально.

Если цель именно AI bug bounty / pentest with AI, я бы не начинал с бесконечных jailbreak-листов. Быстрый прогресс дадут Gandalf и HackAPrompt, но реальную переносимость в web-пентест лучше качает PortSwigger.

Потому что в жизни LLM обычно опасен не сам по себе, а когда ему дали доступ к API, данным и действиям.

Использовать только в рамках самих задач, CTF/lab-сред и локальных стендов. "Я просто проверял чатбот банка" - это не responsible disclosure, а плохой план.

@poxek_ai / Чат канала

Обсуждение 5

Вход в экосистему

Ваши настройки cookie