Описание системы¶

Назначение¶

AppSec.GenAI — платформа для проактивного тестирования безопасности моделей искусственного интеллекта и машинного обучения. Система автоматизирует проведение атак на AI/ML-модели, оценивает их устойчивость и формирует детальные отчёты с оценкой рисков.

Ключевое отличие

AppSec.GenAI — это наступательный инструмент тестирования, аналогичный DAST-сканерам (Burp Suite, OWASP ZAP), но специализированный для AI/ML-моделей. Система не является средством мониторинга, WAF или инструментом обучения моделей.

Система решает три основных задачи:

Атака моделей — проведение состязательных (adversarial) атак по трём модальностям: текст (LLM), изображения (CV), аудио (ASR).
Оценка результатов — автоматическая оценка ответов моделей с помощью системы Judge, расчёт рисков по методологии DREAD (шкала 0--10).
Формирование отчётности — генерация детальных отчётов с полной цепочкой атаки, артефактами и рекомендациями.

Что такое AppSec.GenAI¶

AppSec.GenAI — это решение для поиска уязвимостей и анализа защищённости моделей искусственного интеллекта для бизнеса. Платформа функционирует полностью автономно, без необходимости подключения к внешним сетям, что исключает риски утечки информации.

Аналогия¶

Так же, как DAST-сканеры (Burp Suite, OWASP ZAP) тестируют веб-приложения, отправляя вредоносные запросы и анализируя ответы, AppSec.GenAI тестирует AI/ML-модели, отправляя им состязательные входные данные и оценивая, насколько модель устойчива к атакам.

Традиционный DAST	AppSec.GenAI
Тестирует веб-приложения	Тестирует AI/ML-модели
SQL-инъекции, XSS, CSRF	Jailbreak, adversarial examples, backdoor
HTTP-запросы	Промпты, изображения, аудиофайлы
Обнаружение уязвимостей в коде	Обнаружение уязвимостей в поведении модели
CVSS-оценка	DREAD-оценка

Чем AppSec.GenAI не является¶

Важно

Не WAF (Web Application Firewall) — Система не защищает модели в runtime, а тестирует их до развёртывания.
Не система мониторинга — Система не отслеживает поведение моделей в продуктивной среде.
Не инструмент обучения — Система не тренирует и не дообучает модели.
Не сканер кода — Система тестирует поведение модели, а не исходный код.

Три модальности тестирования¶

AppSec.GenAI поддерживает тестирование моделей по трём модальностям:

graph TB
    A[AppSec.GenAI] --> B["LLM<br/>Большие языковые модели"]
    A --> C["CV<br/>Компьютерное зрение"]
    A --> D["ASR<br/>Распознавание речи"]

    B --> B1["Jailbreak Attack Suite<br/>19 техник"]
    C --> C1["19 атак<br/>White-box / Black-box / Hybrid"]
    D --> D1["6 атак<br/>5 Black-box + 1 White-box (BIM)"]

LLM — Большие языковые модели¶

Тестирование устойчивости языковых моделей к джейлбрейк-атакам. AppSec.GenAI использует единую сводную атаку Jailbreak Attack Suite, объединяющую 19 техник джейлбрейка:

Основные тактики (11): Plain, Roleplay, Output Formatting, Instruction Override, Task Deflection, Text Structure, Semantic Hijacking, Persuasion, Data-as-Instructions, In-Context Learning, Noise Flooding.
Подкатегории Roleplay (9): AI Avatar, DAN, Evil Character, Anime Persona, Expert Persona, Fictional Character, Future Reality, Game Master, Sci-Fi Setting.
Трансформации (2): Encoding (кодирование промптов), Obfuscation (обфускация текста).
Продвинутые режимы (5): Break Fun (Schema Exploitation), Function Injection (Tool Use Injection), DoubleSpeak (Representation Hijacking), CAMO (Cross-Modal Obfuscation), Crescendo (многоходовая эскалация диалога).
Unified Pipeline (1): многостадийный конвейер трансформаций промптов, объединяющий произвольные кодирования и обфускации.
Встроенный набор промптов: 916 промптов (789 на английском + 127 на русском языке).

Подробное описание техник и параметров — см. Джейлбрейк-атаки и Приложение A. Полная таблица атак.

CV — Компьютерное зрение¶

Тестирование устойчивости моделей классификации изображений к состязательным возмущениям. Доступны 19 атак, сгруппированных по типу доступа к модели:

White-box (15): FGSM, I-FGSM, MI-FGSM, PGD, DeepFool, C&W (L2), JSMA, L-BFGS, LogBarrier, ILA, ReColorAdv, TI, TREMBA, APP, UAP — используют доступ к градиентам модели.
Black-box (1): Simple Black-Box — работает только по предсказаниям модели через API.
Hybrid (3): SinIR, One Pixel, ZOO — поддерживают оба режима.
Артефакты: состязательные изображения сохраняются для анализа.

Подробнее — см. CV-атаки.

ASR — Распознавание речи¶

Тестирование устойчивости моделей распознавания речи к скрытым триггерам и состязательным возмущениям. Доступны 6 атак:

Black-box (5): DABA, PIBA, Ultrasonic, JingleBack, PBSM — внедрение скрытых триггеров без доступа к весам модели.
White-box (1): BIM — градиентная атака для заданной транскрипции (требует GPU и локальную модель Whisper).
Типы атак: встраивание бэкдоров, ультразвуковое воздействие, сигнальная модуляция.
Артефакты: модифицированные аудиофайлы сохраняются для экспертизы.

Подробнее — см. ASR-атаки.

Система оценки Judge¶

Каждый ответ модели проходит через систему оценки (Judge), определяющую, была ли атака успешной:

Simple (базовый)Orchestrator (комплексный)LLM (внешний)

Быстрая оценка на основе детекторов паттернов:

Keyword Detector — YARA-подобный поиск ключевых слов.
Fuzzy Detector — нечёткое сопоставление строк.
Regex Detector — регулярные выражения.

Ансамбль из 6 детекторов с механизмом голосования:

Regex Detector — YARA-подобные паттерны на регулярных выражениях.
Chain Detector — анализ цепочек рассуждений модели.
Encoding Detector — обнаружение кодированного контента в ответе.
Roleplay Detector — анализ ролевых сценариев.
Context Detector — контекстный анализ семантики ответа.
MultiTurn Detector — анализ многоходовых диалогов.

Использование внешней LLM-модели для оценки:

Модель-судья анализирует пару «промпт — ответ».
Выносит вердикт: jailbreak / not jailbreak.
Выставляет оценку уверенности (0.0 — 1.0).

Оценка рисков DREAD¶

Каждая найденная уязвимость оценивается по методологии DREAD — модели количественной оценки риска, состоящей из пяти компонентов:

Компонент	Описание	Шкала
Damage (Ущерб)	Потенциальный ущерб от эксплуатации уязвимости	1—10
Reproducibility (Воспроизводимость)	Насколько легко повторить атаку с тем же результатом	1—10
Exploitability (Эксплуатируемость)	Уровень квалификации и ресурсов, необходимых для проведения атаки	1—10
Affected Users (Затронутые пользователи)	Масштаб потенциального воздействия	1—10
Discoverability (Обнаружимость)	Насколько легко обнаружить уязвимость	1—10

Каждый компонент оценивается по шкале 1–10, итоговая оценка — среднее арифметическое. По итоговой оценке уязвимости присваивается серьёзность:

Итоговая оценка	Серьёзность	Описание
9.0 — 10.0	Critical (Критический)	Немедленное устранение
7.0 — 8.9	High (Высокий)	Устранение в ближайшем релизе
4.0 — 6.9	Medium (Средний)	Планируемое устранение
1.0 — 3.9	Low (Низкий)	Принятие риска или устранение
0.0 — 0.9	Info (Информационный)	Для сведения

Подробнее о методологии и примерах расчёта — см. Результаты сканирования → DREAD-оценка.

Целевая аудитория¶

Роль	Использование
Инженер по безопасности (основной пользователь)	Регистрация моделей, настройка профилей сканирования, запуск атак, анализ результатов
DevOps / MLOps	Развёртывание и сопровождение платформы, интеграция в CI/CD
Аналитик безопасности	Анализ отчётов, оценка рисков, формирование рекомендаций
Руководитель ИБ	Обзор дашборда, контроль покрытия тестирования

Типичные сценарии использования¶

Сценарий 1: Тестирование LLM перед продуктивным развёртыванием

Организация планирует развернуть чат-бота на базе GPT-4o. Перед запуском инженер по безопасности:

Регистрирует модель в AppSec.GenAI (указывает endpoint, API-ключ).
Создаёт профиль сканирования с набором техник Jailbreak Attack Suite (Roleplay, Encoding, Crescendo) и подключает Unified Pipeline.
Запускает сканирование.
Получает отчёт с найденными уязвимостями (Critical / High / Medium).
Передаёт отчёт команде разработки для доработки system prompt.

Сценарий 2: Тестирование CV-модели на состязательную устойчивость

Модель классификации дорожных знаков проходит тестирование:

Загружаются эталонные изображения знаков.
Применяются White-box-атаки (FGSM, PGD) и Black-box / Hybrid-атаки (Simple Black-Box, ZOO, One Pixel).
Система генерирует adversarial-изображения, визуально неотличимые от оригиналов.
Отчёт показывает, какие знаки модель перестаёт распознавать при минимальном возмущении.

Сценарий 3: Тестирование ASR-модели на backdoor-уязвимости

Модель распознавания голосовых команд тестируется на устойчивость:

Загружаются эталонные аудиозаписи команд.
Применяются Black-box-атаки DABA (бэкдор) и Ultrasonic (ультразвук).
Система проверяет, можно ли внедрить скрытые команды в аудиопоток.
Отчёт фиксирует, какие бэкдоры были успешно встроены.

Ключевые показатели¶

Показатель	Значение
Атак всего	44 (19 LLM + 19 CV + 6 ASR)
Техник в составе Jailbreak Attack Suite	19
Типов CV-атак	19 (15 White-box + 1 Black-box + 3 Hybrid)
Типов ASR-атак	6 (5 Black-box + 1 White-box)
Встроенных промптов	916 (789 EN + 127 RU)
Провайдеров LLM	6 встроенных + Custom
Детекторов Judge (orchestrator)	6
Форматов экспорта результатов	3 (CSV, JSON, XLSX) + HTML-отчёт