Описание системы¶
Назначение¶
AppSec.GenAI — платформа для проактивного тестирования безопасности моделей искусственного интеллекта и машинного обучения. Система автоматизирует проведение атак на AI/ML-модели, оценивает их устойчивость и формирует детальные отчёты с оценкой рисков.
Ключевое отличие
AppSec.GenAI — это наступательный инструмент тестирования, аналогичный DAST-сканерам (Burp Suite, OWASP ZAP), но специализированный для AI/ML-моделей. Система не является средством мониторинга, WAF или инструментом обучения моделей.
Система решает три основных задачи:
- Атака моделей — проведение состязательных (adversarial) атак по трём модальностям: текст (LLM), изображения (CV), аудио (ASR).
- Оценка результатов — автоматическая оценка ответов моделей с помощью системы Judge, расчёт рисков по методологии DREAD (шкала 0--10).
- Формирование отчётности — генерация детальных отчётов с полной цепочкой атаки, артефактами и рекомендациями.
Что такое AppSec.GenAI¶
AppSec.GenAI — это решение для поиска уязвимостей и анализа защищённости моделей искусственного интеллекта для бизнеса. Платформа функционирует полностью автономно, без необходимости подключения к внешним сетям, что исключает риски утечки информации.
Аналогия¶
Так же, как DAST-сканеры (Burp Suite, OWASP ZAP) тестируют веб-приложения, отправляя вредоносные запросы и анализируя ответы, AppSec.GenAI тестирует AI/ML-модели, отправляя им состязательные входные данные и оценивая, насколько модель устойчива к атакам.
| Традиционный DAST | AppSec.GenAI |
|---|---|
| Тестирует веб-приложения | Тестирует AI/ML-модели |
| SQL-инъекции, XSS, CSRF | Jailbreak, adversarial examples, backdoor |
| HTTP-запросы | Промпты, изображения, аудиофайлы |
| Обнаружение уязвимостей в коде | Обнаружение уязвимостей в поведении модели |
| CVSS-оценка | DREAD-оценка |
Чем AppSec.GenAI не является¶
Важно
- Не WAF (Web Application Firewall) — Система не защищает модели в runtime, а тестирует их до развёртывания.
- Не система мониторинга — Система не отслеживает поведение моделей в продуктивной среде.
- Не инструмент обучения — Система не тренирует и не дообучает модели.
- Не сканер кода — Система тестирует поведение модели, а не исходный код.
Три модальности тестирования¶
AppSec.GenAI поддерживает тестирование моделей по трём модальностям:
graph TB
A[AppSec.GenAI] --> B["LLM<br/>Большие языковые модели"]
A --> C["CV<br/>Компьютерное зрение"]
A --> D["ASR<br/>Распознавание речи"]
B --> B1["Jailbreak Attack Suite<br/>19 техник"]
C --> C1["19 атак<br/>White-box / Black-box / Hybrid"]
D --> D1["6 атак<br/>5 Black-box + 1 White-box (BIM)"]
LLM — Большие языковые модели¶
Тестирование устойчивости языковых моделей к джейлбрейк-атакам. AppSec.GenAI использует единую сводную атаку Jailbreak Attack Suite, объединяющую 19 техник джейлбрейка:
- Основные тактики (11): Plain, Roleplay, Output Formatting, Instruction Override, Task Deflection, Text Structure, Semantic Hijacking, Persuasion, Data-as-Instructions, In-Context Learning, Noise Flooding.
- Подкатегории Roleplay (9): AI Avatar, DAN, Evil Character, Anime Persona, Expert Persona, Fictional Character, Future Reality, Game Master, Sci-Fi Setting.
- Трансформации (2): Encoding (кодирование промптов), Obfuscation (обфускация текста).
- Продвинутые режимы (5): Break Fun (Schema Exploitation), Function Injection (Tool Use Injection), DoubleSpeak (Representation Hijacking), CAMO (Cross-Modal Obfuscation), Crescendo (многоходовая эскалация диалога).
- Unified Pipeline (1): многостадийный конвейер трансформаций промптов, объединяющий произвольные кодирования и обфускации.
- Встроенный набор промптов: 916 промптов (789 на английском + 127 на русском языке).
Подробное описание техник и параметров — см. Джейлбрейк-атаки и Приложение A. Полная таблица атак.
CV — Компьютерное зрение¶
Тестирование устойчивости моделей классификации изображений к состязательным возмущениям. Доступны 19 атак, сгруппированных по типу доступа к модели:
- White-box (15): FGSM, I-FGSM, MI-FGSM, PGD, DeepFool, C&W (L2), JSMA, L-BFGS, LogBarrier, ILA, ReColorAdv, TI, TREMBA, APP, UAP — используют доступ к градиентам модели.
- Black-box (1): Simple Black-Box — работает только по предсказаниям модели через API.
- Hybrid (3): SinIR, One Pixel, ZOO — поддерживают оба режима.
- Артефакты: состязательные изображения сохраняются для анализа.
Подробнее — см. CV-атаки.
ASR — Распознавание речи¶
Тестирование устойчивости моделей распознавания речи к скрытым триггерам и состязательным возмущениям. Доступны 6 атак:
- Black-box (5): DABA, PIBA, Ultrasonic, JingleBack, PBSM — внедрение скрытых триггеров без доступа к весам модели.
- White-box (1): BIM — градиентная атака для заданной транскрипции (требует GPU и локальную модель Whisper).
- Типы атак: встраивание бэкдоров, ультразвуковое воздействие, сигнальная модуляция.
- Артефакты: модифицированные аудиофайлы сохраняются для экспертизы.
Подробнее — см. ASR-атаки.
Система оценки Judge¶
Каждый ответ модели проходит через систему оценки (Judge), определяющую, была ли атака успешной:
Быстрая оценка на основе детекторов паттернов:
- Keyword Detector — YARA-подобный поиск ключевых слов.
- Fuzzy Detector — нечёткое сопоставление строк.
- Regex Detector — регулярные выражения.
Ансамбль из 6 детекторов с механизмом голосования:
- Regex Detector — YARA-подобные паттерны на регулярных выражениях.
- Chain Detector — анализ цепочек рассуждений модели.
- Encoding Detector — обнаружение кодированного контента в ответе.
- Roleplay Detector — анализ ролевых сценариев.
- Context Detector — контекстный анализ семантики ответа.
- MultiTurn Detector — анализ многоходовых диалогов.
Использование внешней LLM-модели для оценки:
- Модель-судья анализирует пару «промпт — ответ».
- Выносит вердикт: jailbreak / not jailbreak.
- Выставляет оценку уверенности (0.0 — 1.0).
Оценка рисков DREAD¶
Каждая найденная уязвимость оценивается по методологии DREAD — модели количественной оценки риска, состоящей из пяти компонентов:
| Компонент | Описание | Шкала |
|---|---|---|
| Damage (Ущерб) | Потенциальный ущерб от эксплуатации уязвимости | 1—10 |
| Reproducibility (Воспроизводимость) | Насколько легко повторить атаку с тем же результатом | 1—10 |
| Exploitability (Эксплуатируемость) | Уровень квалификации и ресурсов, необходимых для проведения атаки | 1—10 |
| Affected Users (Затронутые пользователи) | Масштаб потенциального воздействия | 1—10 |
| Discoverability (Обнаружимость) | Насколько легко обнаружить уязвимость | 1—10 |
Каждый компонент оценивается по шкале 1–10, итоговая оценка — среднее арифметическое. По итоговой оценке уязвимости присваивается серьёзность:
| Итоговая оценка | Серьёзность | Описание |
|---|---|---|
| 9.0 — 10.0 | Critical (Критический) | Немедленное устранение |
| 7.0 — 8.9 | High (Высокий) | Устранение в ближайшем релизе |
| 4.0 — 6.9 | Medium (Средний) | Планируемое устранение |
| 1.0 — 3.9 | Low (Низкий) | Принятие риска или устранение |
| 0.0 — 0.9 | Info (Информационный) | Для сведения |
Подробнее о методологии и примерах расчёта — см. Результаты сканирования → DREAD-оценка.
Целевая аудитория¶
| Роль | Использование |
|---|---|
| Инженер по безопасности (основной пользователь) | Регистрация моделей, настройка профилей сканирования, запуск атак, анализ результатов |
| DevOps / MLOps | Развёртывание и сопровождение платформы, интеграция в CI/CD |
| Аналитик безопасности | Анализ отчётов, оценка рисков, формирование рекомендаций |
| Руководитель ИБ | Обзор дашборда, контроль покрытия тестирования |
Типичные сценарии использования¶
Сценарий 1: Тестирование LLM перед продуктивным развёртыванием
Организация планирует развернуть чат-бота на базе GPT-4o. Перед запуском инженер по безопасности:
- Регистрирует модель в AppSec.GenAI (указывает endpoint, API-ключ).
- Создаёт профиль сканирования с набором техник Jailbreak Attack Suite (Roleplay, Encoding, Crescendo) и подключает Unified Pipeline.
- Запускает сканирование.
- Получает отчёт с найденными уязвимостями (Critical / High / Medium).
- Передаёт отчёт команде разработки для доработки system prompt.
Сценарий 2: Тестирование CV-модели на состязательную устойчивость
Модель классификации дорожных знаков проходит тестирование:
- Загружаются эталонные изображения знаков.
- Применяются White-box-атаки (FGSM, PGD) и Black-box / Hybrid-атаки (Simple Black-Box, ZOO, One Pixel).
- Система генерирует adversarial-изображения, визуально неотличимые от оригиналов.
- Отчёт показывает, какие знаки модель перестаёт распознавать при минимальном возмущении.
Сценарий 3: Тестирование ASR-модели на backdoor-уязвимости
Модель распознавания голосовых команд тестируется на устойчивость:
- Загружаются эталонные аудиозаписи команд.
- Применяются Black-box-атаки DABA (бэкдор) и Ultrasonic (ультразвук).
- Система проверяет, можно ли внедрить скрытые команды в аудиопоток.
- Отчёт фиксирует, какие бэкдоры были успешно встроены.
Ключевые показатели¶
| Показатель | Значение |
|---|---|
| Атак всего | 44 (19 LLM + 19 CV + 6 ASR) |
| Техник в составе Jailbreak Attack Suite | 19 |
| Типов CV-атак | 19 (15 White-box + 1 Black-box + 3 Hybrid) |
| Типов ASR-атак | 6 (5 Black-box + 1 White-box) |
| Встроенных промптов | 916 (789 EN + 127 RU) |
| Провайдеров LLM | 6 встроенных + Custom |
| Детекторов Judge (orchestrator) | 6 |
| Форматов экспорта результатов | 3 (CSV, JSON, XLSX) + HTML-отчёт |