Перейти к содержанию

Описание системы

Назначение

AppSec.GenAI — платформа для проактивного тестирования безопасности моделей искусственного интеллекта и машинного обучения. Система автоматизирует проведение атак на AI/ML-модели, оценивает их устойчивость и формирует детальные отчёты с оценкой рисков.

Ключевое отличие

AppSec.GenAI — это наступательный инструмент тестирования, аналогичный DAST-сканерам (Burp Suite, OWASP ZAP), но специализированный для AI/ML-моделей. Система не является средством мониторинга, WAF или инструментом обучения моделей.

Система решает три основных задачи:

  1. Атака моделей — проведение состязательных (adversarial) атак по трём модальностям: текст (LLM), изображения (CV), аудио (ASR).
  2. Оценка результатов — автоматическая оценка ответов моделей с помощью системы Judge, расчёт рисков по методологии DREAD (шкала 0--10).
  3. Формирование отчётности — генерация детальных отчётов с полной цепочкой атаки, артефактами и рекомендациями.

Что такое AppSec.GenAI

AppSec.GenAI — это решение для поиска уязвимостей и анализа защищённости моделей искусственного интеллекта для бизнеса. Платформа функционирует полностью автономно, без необходимости подключения к внешним сетям, что исключает риски утечки информации.

Аналогия

Так же, как DAST-сканеры (Burp Suite, OWASP ZAP) тестируют веб-приложения, отправляя вредоносные запросы и анализируя ответы, AppSec.GenAI тестирует AI/ML-модели, отправляя им состязательные входные данные и оценивая, насколько модель устойчива к атакам.

Традиционный DAST AppSec.GenAI
Тестирует веб-приложения Тестирует AI/ML-модели
SQL-инъекции, XSS, CSRF Jailbreak, adversarial examples, backdoor
HTTP-запросы Промпты, изображения, аудиофайлы
Обнаружение уязвимостей в коде Обнаружение уязвимостей в поведении модели
CVSS-оценка DREAD-оценка

Чем AppSec.GenAI не является

Важно

  • Не WAF (Web Application Firewall) — Система не защищает модели в runtime, а тестирует их до развёртывания.
  • Не система мониторинга — Система не отслеживает поведение моделей в продуктивной среде.
  • Не инструмент обучения — Система не тренирует и не дообучает модели.
  • Не сканер кода — Система тестирует поведение модели, а не исходный код.

Три модальности тестирования

AppSec.GenAI поддерживает тестирование моделей по трём модальностям:

graph TB
    A[AppSec.GenAI] --> B["LLM<br/>Большие языковые модели"]
    A --> C["CV<br/>Компьютерное зрение"]
    A --> D["ASR<br/>Распознавание речи"]

    B --> B1["Jailbreak Attack Suite<br/>19 техник"]
    C --> C1["19 атак<br/>White-box / Black-box / Hybrid"]
    D --> D1["6 атак<br/>5 Black-box + 1 White-box (BIM)"]

LLM — Большие языковые модели

Тестирование устойчивости языковых моделей к джейлбрейк-атакам. AppSec.GenAI использует единую сводную атаку Jailbreak Attack Suite, объединяющую 19 техник джейлбрейка:

  • Основные тактики (11): Plain, Roleplay, Output Formatting, Instruction Override, Task Deflection, Text Structure, Semantic Hijacking, Persuasion, Data-as-Instructions, In-Context Learning, Noise Flooding.
  • Подкатегории Roleplay (9): AI Avatar, DAN, Evil Character, Anime Persona, Expert Persona, Fictional Character, Future Reality, Game Master, Sci-Fi Setting.
  • Трансформации (2): Encoding (кодирование промптов), Obfuscation (обфускация текста).
  • Продвинутые режимы (5): Break Fun (Schema Exploitation), Function Injection (Tool Use Injection), DoubleSpeak (Representation Hijacking), CAMO (Cross-Modal Obfuscation), Crescendo (многоходовая эскалация диалога).
  • Unified Pipeline (1): многостадийный конвейер трансформаций промптов, объединяющий произвольные кодирования и обфускации.
  • Встроенный набор промптов: 916 промптов (789 на английском + 127 на русском языке).

Подробное описание техник и параметров — см. Джейлбрейк-атаки и Приложение A. Полная таблица атак.

CV — Компьютерное зрение

Тестирование устойчивости моделей классификации изображений к состязательным возмущениям. Доступны 19 атак, сгруппированных по типу доступа к модели:

  • White-box (15): FGSM, I-FGSM, MI-FGSM, PGD, DeepFool, C&W (L2), JSMA, L-BFGS, LogBarrier, ILA, ReColorAdv, TI, TREMBA, APP, UAP — используют доступ к градиентам модели.
  • Black-box (1): Simple Black-Box — работает только по предсказаниям модели через API.
  • Hybrid (3): SinIR, One Pixel, ZOO — поддерживают оба режима.
  • Артефакты: состязательные изображения сохраняются для анализа.

Подробнее — см. CV-атаки.

ASR — Распознавание речи

Тестирование устойчивости моделей распознавания речи к скрытым триггерам и состязательным возмущениям. Доступны 6 атак:

  • Black-box (5): DABA, PIBA, Ultrasonic, JingleBack, PBSM — внедрение скрытых триггеров без доступа к весам модели.
  • White-box (1): BIM — градиентная атака для заданной транскрипции (требует GPU и локальную модель Whisper).
  • Типы атак: встраивание бэкдоров, ультразвуковое воздействие, сигнальная модуляция.
  • Артефакты: модифицированные аудиофайлы сохраняются для экспертизы.

Подробнее — см. ASR-атаки.

Система оценки Judge

Каждый ответ модели проходит через систему оценки (Judge), определяющую, была ли атака успешной:

Быстрая оценка на основе детекторов паттернов:

  • Keyword Detector — YARA-подобный поиск ключевых слов.
  • Fuzzy Detector — нечёткое сопоставление строк.
  • Regex Detector — регулярные выражения.

Ансамбль из 6 детекторов с механизмом голосования:

  • Regex Detector — YARA-подобные паттерны на регулярных выражениях.
  • Chain Detector — анализ цепочек рассуждений модели.
  • Encoding Detector — обнаружение кодированного контента в ответе.
  • Roleplay Detector — анализ ролевых сценариев.
  • Context Detector — контекстный анализ семантики ответа.
  • MultiTurn Detector — анализ многоходовых диалогов.

Использование внешней LLM-модели для оценки:

  • Модель-судья анализирует пару «промпт — ответ».
  • Выносит вердикт: jailbreak / not jailbreak.
  • Выставляет оценку уверенности (0.0 — 1.0).

Оценка рисков DREAD

Каждая найденная уязвимость оценивается по методологии DREAD — модели количественной оценки риска, состоящей из пяти компонентов:

Компонент Описание Шкала
Damage (Ущерб) Потенциальный ущерб от эксплуатации уязвимости 1—10
Reproducibility (Воспроизводимость) Насколько легко повторить атаку с тем же результатом 1—10
Exploitability (Эксплуатируемость) Уровень квалификации и ресурсов, необходимых для проведения атаки 1—10
Affected Users (Затронутые пользователи) Масштаб потенциального воздействия 1—10
Discoverability (Обнаружимость) Насколько легко обнаружить уязвимость 1—10

Каждый компонент оценивается по шкале 1–10, итоговая оценка — среднее арифметическое. По итоговой оценке уязвимости присваивается серьёзность:

Итоговая оценка Серьёзность Описание
9.0 — 10.0 Critical (Критический) Немедленное устранение
7.0 — 8.9 High (Высокий) Устранение в ближайшем релизе
4.0 — 6.9 Medium (Средний) Планируемое устранение
1.0 — 3.9 Low (Низкий) Принятие риска или устранение
0.0 — 0.9 Info (Информационный) Для сведения

Подробнее о методологии и примерах расчёта — см. Результаты сканирования → DREAD-оценка.

Целевая аудитория

Роль Использование
Инженер по безопасности (основной пользователь) Регистрация моделей, настройка профилей сканирования, запуск атак, анализ результатов
DevOps / MLOps Развёртывание и сопровождение платформы, интеграция в CI/CD
Аналитик безопасности Анализ отчётов, оценка рисков, формирование рекомендаций
Руководитель ИБ Обзор дашборда, контроль покрытия тестирования

Типичные сценарии использования

Сценарий 1: Тестирование LLM перед продуктивным развёртыванием

Организация планирует развернуть чат-бота на базе GPT-4o. Перед запуском инженер по безопасности:

  1. Регистрирует модель в AppSec.GenAI (указывает endpoint, API-ключ).
  2. Создаёт профиль сканирования с набором техник Jailbreak Attack Suite (Roleplay, Encoding, Crescendo) и подключает Unified Pipeline.
  3. Запускает сканирование.
  4. Получает отчёт с найденными уязвимостями (Critical / High / Medium).
  5. Передаёт отчёт команде разработки для доработки system prompt.

Сценарий 2: Тестирование CV-модели на состязательную устойчивость

Модель классификации дорожных знаков проходит тестирование:

  1. Загружаются эталонные изображения знаков.
  2. Применяются White-box-атаки (FGSM, PGD) и Black-box / Hybrid-атаки (Simple Black-Box, ZOO, One Pixel).
  3. Система генерирует adversarial-изображения, визуально неотличимые от оригиналов.
  4. Отчёт показывает, какие знаки модель перестаёт распознавать при минимальном возмущении.

Сценарий 3: Тестирование ASR-модели на backdoor-уязвимости

Модель распознавания голосовых команд тестируется на устойчивость:

  1. Загружаются эталонные аудиозаписи команд.
  2. Применяются Black-box-атаки DABA (бэкдор) и Ultrasonic (ультразвук).
  3. Система проверяет, можно ли внедрить скрытые команды в аудиопоток.
  4. Отчёт фиксирует, какие бэкдоры были успешно встроены.

Ключевые показатели

Показатель Значение
Атак всего 44 (19 LLM + 19 CV + 6 ASR)
Техник в составе Jailbreak Attack Suite 19
Типов CV-атак 19 (15 White-box + 1 Black-box + 3 Hybrid)
Типов ASR-атак 6 (5 Black-box + 1 White-box)
Встроенных промптов 916 (789 EN + 127 RU)
Провайдеров LLM 6 встроенных + Custom
Детекторов Judge (orchestrator) 6
Форматов экспорта результатов 3 (CSV, JSON, XLSX) + HTML-отчёт