Быстрый старт¶

Данное руководство проведёт вас через полный цикл работы с AppSec.GenAI — от регистрации модели до анализа найденных уязвимостей. По завершении вы будете знать, как запустить сканирование для каждой из трёх модальностей: LLM, CV и ASR.

5 минут на первый результат

Если платформа уже развёрнута и все сервисы работают, вы сможете получить первый результат тестирования менее чем за 5 минут, следуя разделу Демо за 5 минут.

Предварительные требования¶

Перед началом работы убедитесь, что выполнены следующие условия:

Платформа AppSec.GenAI развёрнута и все сервисы запущены (см. Руководство по установке).
У вас есть доступ к веб-интерфейсу AppSec.GenAI (адрес уточните у администратора).
У вас есть учётная запись с правами на создание моделей и запуск сканирований.
Для тестирования LLM — API-ключ одного из провайдеров (OpenAI, Claude, DeepSeek, GigaChat, YandexGPT или HuggingFace).

Проверка работоспособности

Перед началом работы рекомендуется убедиться, что веб-интерфейс доступен. Откройте браузер и перейдите по адресу AppSec.GenAI — должна открыться страница входа.

Полный путь: тестирование LLM (Happy Path)¶

Ниже описан полный путь тестирования языковой модели на устойчивость к jailbreak-атакам.

Шаг 1. Откройте веб-интерфейс¶

Откройте браузер и перейдите по адресу веб-интерфейса AppSec.GenAI, предоставленному администратором.
Войдите в систему с вашими учётными данными.
После авторизации откроется главная страница (Дашборд).

Шаг 2. Зарегистрируйте модель¶

Регистрация модели в AppSec.GenAI проходит через мастер из трёх шагов: Тип модели → Настройка API → Проверка. Ниже описана регистрация LLM на примере OpenAI.

В боковом меню откройте раздел Модели.
Нажмите кнопку Добавить. Откроется мастер создания модели.

Шаг 2.1. Тип модели¶

Выберите категорию модели — Анализируемая модель (модель, которую вы тестируете на устойчивость к атакам).

Категории моделей

Анализируемая модель — целевая модель, к которой будут применяться атаки.

Системная модель — вспомогательная модель платформы (например, для оценки ответов в стратегии Judge).

Заполните основные поля:

Поле	Значение	Описание
Имя модели	`GPT-4o-mini Test`	Произвольное имя для идентификации
Тип модели	`LLM`	Большая языковая модель (доступны также `CV` и `SPEECH`)
Версия	`v1.0`	Версия регистрируемой модели
Описание	произвольное	Опционально

Нажмите Далее.

Шаг 2.2. Настройка API¶

В поле Провайдер выберите шаблон из списка. Доступные значения:
- Anthropic Claude
- DeepSeek
- HuggingFace
- OpenAI (ChatGPT, GPT-4)
- Sber GigaChat
- Yandex GPT
- Custom (свой контракт)
Для данного руководства выберите OpenAI (ChatGPT, GPT-4). Поля API Endpoint, Тип аутентификации, Шаблон запроса (JSON) и Путь к ответу (JSONPath) заполнятся автоматически из шаблона.

Заполните оставшиеся поля:

Поле	Значение	Описание
API Endpoint	`https://api.openai.com/v1/chat/completions`	Адрес API модели (заполняется из шаблона)
Тип аутентификации	`Bearer Token`	Способ передачи ключа
API Ключ / Токен	`sk-proj-ваш-ключ...`	Ваш API-ключ провайдера
Шаблон запроса (JSON)	заполняется автоматически	Тело HTTP-запроса с плейсхолдером `{{prompt}}`
Путь к ответу (JSONPath)	`choices[0].message.content`	Путь извлечения ответа модели

Пример шаблона запроса для OpenAI (заполнится автоматически):

{
  "model": "gpt-4o-mini",
  "messages": [
    { "role": "user", "content": "{{prompt}}" }
  ],
  "temperature": 0.7,
  "maxTokens": 500
}

Плейсхолдер {{prompt}}

В поле Шаблон запроса (JSON) обязателен плейсхолдер {{prompt}} (двойные фигурные скобки). Система заменит его на текст атаки при каждом запросе.

При необходимости раскройте блок Дополнительные настройки и скорректируйте:
- HTTP метод (по умолчанию POST),
- Таймаут (мс) (по умолчанию 60000),
- Макс. повторов (по умолчанию 3),
- Дополнительные заголовки (JSON).
Нажмите Далее и завершите работу мастера. После сохранения модель появится в разделе Модели и станет доступна для проверки (см. Шаг 3).

Шаг 3. Проверьте подключение к модели¶

После создания модели необходимо убедиться, что она доступна и отвечает корректно. Проверка выполняется на карточке модели в разделе Проверка модели.

В боковом меню откройте раздел Модели и нажмите на строку зарегистрированной модели GPT-4o-mini Test — откроется её карточка.
Найдите раздел Проверка модели. В блоке Проверка контракта автоматически отображаются результаты валидации настроек:
- auth_type — корректность типа аутентификации.
- request_format.prompt_field — наличие плейсхолдера {{prompt}} в шаблоне запроса.
- response_format.response_field — корректность пути извлечения ответа.
Если какая-либо проверка завершилась с ошибкой, отредактируйте модель и исправьте соответствующее поле.
Заполните параметры тестового запроса:

Поле Значение

Тестовый промпт например, Привет, что такое 2+2?

Таймаут (секунды) 60 (по умолчанию)
Нажмите кнопку Проверить модель.
Дождитесь результата на вкладке Результат:
- При успешном ответе отображается статус Готова к сканированию, время отклика в миллисекундах и текст ответа модели.
- При ошибке изучите сообщение, а также раскройте блоки Детали запроса и Детали ответа для диагностики.

История проверок

На вкладке История сохраняются все ранее выполненные проверки модели с возможностью просмотра деталей запроса и ответа.

Шаг 4. Создайте профиль сканирования¶

Профиль сканирования определяет, какие атаки и с какими настройками будут применены к модели. Профиль создаётся через мастер из четырёх шагов: Основная информация → Выбор атак → Настройка атак → Обзор.

В боковом меню откройте раздел Профили сканирования.
Нажмите кнопку создания профиля (значок «+» на странице).

Шаг 4.1. Основная информация¶

Заполните поля профиля:

Поле	Значение
Имя профиля	`Быстрый jailbreak-тест`
Описание	`Базовое тестирование на jailbreak-уязвимости`
Тип профиля	`LLM`

Доступные типы профилей

LLM — для тестирования языковых моделей.
Изображения — для CV-моделей.
Аудио — для ASR-моделей.

В блоке Конфигурация судьи выберите стратегию оценки ответов. Для быстрого теста используйте Simple.
Стратегии судьи
- Simple — оценка по словарю фраз отказа (быстро, без вызова LLM).
- Orchestrator — ансамбль из нескольких детекторов с агрегированием результатов.
- LLM Judge — оценка с привлечением языковой модели в роли судьи.
При необходимости добавьте собственные фразы отказа в блоке Свой список фраз отказа — они дополнят встроенный словарь.
Нажмите Далее.

Шаг 4.2. Выбор атак¶

В списке доступных атак отметьте Jailbreak Attack Suite.

Для удобства используйте фильтры по типу атак: Все, White-box, Black-box, Hybrid.
Нажмите Далее.

Шаг 4.3. Настройка атак¶

Для быстрого старта оставьте параметры атаки по умолчанию.

Расширенные настройки

На этом шаге доступны блоки Базовые параметры, Категории промптов, Уголовный кодекс РФ, Adversarial Suffixes, Тактики атак и Unified Pipeline. Подробное описание параметров см. в Руководстве пользователя.
Нажмите Далее.

Шаг 4.4. Обзор¶

Проверьте сводку профиля.
Нажмите кнопку сохранения, чтобы создать профиль.

После сохранения профиль появится в таблице раздела Профили сканирования.

Шаг 5. Запустите сканирование¶

Запуск сканирования выполняется через диалог Новое сканирование — мастер из четырёх шагов: Модель → Профиль → Параметры → Подтверждение.

В верхней панели нажмите кнопку Сканировать.
На шаге Модель выберите модель из списка: GPT-4o-mini Test. Нажмите Далее.
На шаге Профиль выберите профиль сканирования: Быстрый jailbreak-тест. Нажмите Далее.
На шаге Параметры при необходимости скорректируйте параметры запуска или оставьте значения по умолчанию. Нажмите Далее.
На шаге Подтверждение проверьте сводку и запустите сканирование.

После запуска вы будете перенаправлены на страницу мониторинга сканирования.

Шаг 6. Отслеживайте прогресс¶

На странице сканирования отображается:

Текущий статус — например, Завершён или Отменён.
Прогресс-бар с долей обработанных задач.
Время начала и длительность выполнения.
Счётчик атак — выполнено / всего.
Раздел Параметры атаки с полной конфигурацией запуска.

Доступные действия на карточке сканирования:

Экспорт — выгрузка результатов.
Скачать HTML-отчёт — сводный отчёт по сканированию.
Повторить — повторный запуск сканирования с теми же параметрами.

Время выполнения

Длительность зависит от количества промптов, выбранной стратегии судьи и скорости ответа целевой модели. Для базового теста с настройками по умолчанию ориентировочное время — несколько минут.

Шаг 7. Проанализируйте результаты¶

После завершения сканирования на его странице доступны три вкладки: Общая статистика, Уязвимости и Артефакты.

Общая статистика¶

На вкладке отображается агрегированная сводка по сканированию:

Всего атак / Завершено / Ошибок / Среднее время.
Уязвимости — общее количество и разбивка по уровням опасности (High, Medium, Low).
Risk Score, DREAD Avg, CVSS Avg — агрегированные метрики риска.
Длительность сканирования.
Блок Модель со ссылкой на карточку анализируемой модели.
Блок По типу атаки с распределением уязвимостей.
Таблица Атаки со статусом, числом уязвимостей, временем и количеством попыток по каждой атаке.

Уязвимости¶

Откройте вкладку Уязвимости, чтобы увидеть список обнаруженных уязвимостей в виде карточек (доступно переключение в режим Список).

На карточке отображаются:

Уровень опасности — HIGH, MEDIUM или LOW.
Категория уязвимости (например, core).
DREAD-оценка.
Промпт — краткий фрагмент отправленного запроса.
Ответ — краткий фрагмент ответа модели.
Вердикт — результат оценки судьёй (например, jailbreak_successful).

Нажмите Подробнее для просмотра полной информации:

Оригинальный промпт — исходный текст из базы атак.
Цепочка трансформаций — визуализация последовательности преобразований, применённых к промпту.
Отправленный промпт — финальный текст, который был отправлен модели.
Ответ модели — полный ответ.
DREAD-оценка — разбивка по пяти компонентам (D, R, E, A, D).
Индикаторы успеха — признаки, по которым судья принял решение.
Метаданные — HTTP-статус, длительность, количество попыток, временная метка.
Рекомендации — предложения по защите от данного типа атаки.

Артефакты¶

На вкладке Артефакты доступны промпты и ответы, накопленные в ходе сканирования, — они используются для аудита и повторного анализа.

Быстрый путь: тестирование CV-модели¶

Для тестирования модели компьютерного зрения пройдём полный цикл: от регистрации модели до получения adversarial-изображения, которое обманывает классификатор.

Шаг 1. Зарегистрируйте CV-модель¶

Для CV-моделей доступны два варианта:

Использовать предустановленную модель — в системе уже зарегистрированы локальные модели ResNet50-ImageNet и VGG19-ImageNet (обученные на ImageNet). Их можно использовать сразу без дополнительной регистрации и проверки — перейдите к Шагу 2.
Зарегистрировать свою CV-модель — продолжите по инструкции ниже.

Регистрация CV-модели выполняется через тот же мастер из трёх шагов, что и для LLM (Тип модели → Настройка API → Проверка).

В боковом меню откройте раздел Модели и нажмите кнопку Добавить.

На шаге Тип модели выберите категорию Анализируемая модель и заполните основные поля:

Поле	Значение	Описание
Имя модели	`ResNet-50 Test`	Произвольное имя
Тип модели	`CV`	Модель компьютерного зрения
Версия	`v1.0`	Версия модели
Описание	произвольное	Опционально

На шаге Настройка API укажите параметры подключения к inference-сервису вашей CV-модели: API Endpoint, Тип аутентификации, API Ключ / Токен, а также Шаблон запроса (JSON) и Путь к ответу (JSONPath).
Завершите работу мастера. Перейдите на карточку модели и выполните проверку аналогично Шагу 3 раздела LLM.

Шаг 2. Создайте профиль сканирования для CV¶

В боковом меню откройте раздел Профили сканирования и нажмите кнопку создания профиля.
На шаге Основная информация заполните:

Поле Значение

Имя профиля CV FGSM Quick Test

Описание Быстрый тест FGSM на ResNet-50

Тип профиля Изображения
На шаге Выбор атак отметьте подходящую whitebox-атаку для CV-моделей (например, FGSM — Fast Gradient Sign Method, одношаговую градиентную атаку).
На шаге Настройка атак оставьте параметры по умолчанию.

Расширенные настройки

Подробное описание параметров CV-атак (epsilon, режим targeted/untargeted и др.) см. в Руководстве пользователя.
На шаге Обзор сохраните профиль.

Шаг 3. Загрузите изображение¶

В боковом меню откройте Ассеты → Изображения.
Используйте встроенный тестовый файл panda.jpg (предустановлен в системе) или загрузите своё изображение в формате JPEG/PNG через кнопку Загрузить.

Шаг 4. Запустите сканирование¶

В верхней панели нажмите кнопку Сканировать.
В диалоге Новое сканирование последовательно пройдите шаги:
- Модель — выберите CV-модель (ResNet-50 Test или предустановленную ResNet50-ImageNet).
- Профиль — выберите профиль CV FGSM Quick Test.
- Параметры — выберите изображение для атаки (например, panda.jpg).
- Подтверждение — проверьте сводку и запустите сканирование.
Дождитесь завершения сканирования на странице мониторинга.

Шаг 5. Проанализируйте результаты CV-атаки¶

После завершения сканирования на его странице доступны три вкладки: Общая статистика, Уязвимости и Артефакты.

На вкладке Уязвимости для CV-атаки отображаются:

Оригинальное изображение — исходный файл (например, panda.jpg) и предсказанный моделью класс с уровнем уверенности.
Adversarial-изображение — модифицированное изображение, визуально неотличимое от оригинала, но классифицируемое моделью как другой класс.
DREAD-оценка — разбивка по пяти компонентам опасности.
Метрики возмущения — характеристики изменения изображения (например, L2-норма, SSIM — структурное сходство).

На вкладке Артефакты доступны исходные и модифицированные файлы изображений для дальнейшего анализа.

Что это означает?

Если модель неверно классифицировала adversarial-изображение при визуально незаметных изменениях, она уязвима к whitebox-атаке. Для повышения устойчивости рекомендуется применять adversarial training и другие методы защиты.

Быстрый путь: тестирование ASR-модели¶

Для тестирования модели распознавания речи пройдём полный цикл: от регистрации Whisper-модели до обнаружения бэкдор-уязвимости в аудиораспознавании.

Шаг 1. Зарегистрируйте ASR-модель¶

Для ASR-моделей доступны два варианта:

Использовать предустановленную модель — в системе уже зарегистрированы локальные модели Whisper-Base и Whisper-Small (OpenAI Whisper). Их можно использовать сразу без дополнительной регистрации и проверки — перейдите к Шагу 2.
Зарегистрировать свою ASR-модель — продолжите по инструкции ниже.

Регистрация ASR-модели выполняется через тот же мастер из трёх шагов, что и для LLM (Тип модели → Настройка API → Проверка).

В боковом меню откройте раздел Модели и нажмите кнопку Добавить.

На шаге Тип модели выберите категорию Анализируемая модель и заполните основные поля:

Поле	Значение	Описание
Имя модели	`Whisper Test`	Произвольное имя
Тип модели	`SPEECH`	Модель распознавания речи
Версия	`v1.0`	Версия модели
Описание	произвольное	Опционально

На шаге Настройка API укажите параметры подключения к inference-сервису вашей ASR-модели: API Endpoint, Тип аутентификации, API Ключ / Токен, а также Шаблон запроса (JSON) и Путь к ответу (JSONPath).

Формат аудио

Whisper и подобные модели принимают аудио в формате WAV (PCM, 16-bit). Убедитесь, что частота дискретизации файла соответствует требованиям выбранной атаки.
Завершите работу мастера. Перейдите на карточку модели и выполните проверку аналогично Шагу 3 раздела LLM.

Шаг 2. Создайте профиль сканирования для ASR¶

В боковом меню откройте раздел Профили сканирования и нажмите кнопку создания профиля.
На шаге Основная информация заполните:

Поле Значение

Имя профиля ASR DABA Quick Test

Описание Тест бэкдор-инъекции DABA на Whisper

Тип профиля Аудио
На шаге Выбор атак отметьте подходящую атаку для ASR-моделей (например, DABA — Dual Adaptive Backdoor Attack, многоцикловую инъекцию акустического триггера).
На шаге Настройка атак оставьте параметры по умолчанию.

Расширенные настройки

Подробное описание параметров ASR-атак (частота триггера, длительность, количество циклов и др.) см. в Руководстве пользователя.
На шаге Обзор сохраните профиль.

Шаг 3. Загрузите аудиофайл¶

В боковом меню откройте Ассеты → Аудиофайлы.
Используйте встроенный тестовый файл daba_sample.wav (предустановлен в системе) или загрузите свой WAV-файл через кнопку Загрузить.

Шаг 4. Запустите сканирование¶

В верхней панели нажмите кнопку Сканировать.
В диалоге Новое сканирование последовательно пройдите шаги:
- Модель — выберите ASR-модель (Whisper Test или предустановленную Whisper-Base).
- Профиль — выберите профиль ASR DABA Quick Test.
- Параметры — выберите аудиофайл для атаки (например, daba_sample.wav).
- Подтверждение — проверьте сводку и запустите сканирование.
Дождитесь завершения сканирования на странице мониторинга.

Шаг 5. Проанализируйте результаты ASR-атаки¶

После завершения сканирования на его странице доступны три вкладки: Общая статистика, Уязвимости и Артефакты.

На вкладке Уязвимости для ASR-атаки отображаются:

Оригинальное аудио и его транскрипция, полученная моделью.
Модифицированное аудио с внедрённым акустическим триггером и его транскрипция.
DREAD-оценка — разбивка по пяти компонентам опасности.
Метрики атаки — характеристики внедрения триггера (например, частота, длительность, количество циклов, SNR — отношение сигнал/шум).

На вкладке Артефакты доступны исходные и модифицированные аудиофайлы для дальнейшего анализа.

Что это означает?

Если транскрипция модифицированного аудио отличается от транскрипции оригинала, модель уязвима к выбранной атаке — внедрённый акустический триггер изменяет распознавание речи без слышимых для человека искажений. Это демонстрирует возможность скрытого внедрения команд в аудиопоток.

Демо за 5 минут¶

Минимальный путь для быстрой демонстрации возможностей платформы.

Предварительные условия

Платформа развёрнута и работает.
У вас есть API-ключ OpenAI.

Последовательность действий:

Откройте веб-интерфейс AppSec.GenAI и авторизуйтесь.
Зарегистрируйте LLM-модель:
- Перейдите в Модели → Добавить.
- На шаге Тип модели выберите Анализируемая модель, укажите имя (Demo LLM), тип LLM, версию.
- На шаге Настройка API выберите провайдера OpenAI (ChatGPT, GPT-4) и введите свой API-ключ. Остальные поля заполнятся автоматически.
- Завершите работу мастера.
Откройте карточку модели Demo LLM и в разделе Проверка модели нажмите Проверить модель — убедитесь, что отображается статус Готова к сканированию.
Создайте профиль сканирования:
- Перейдите в Профили сканирования и нажмите кнопку создания профиля.
- Имя Demo Jailbreak, тип LLM, стратегия судьи Simple.
- На шаге Выбор атак отметьте Jailbreak Attack Suite.
- Завершите работу мастера, оставив параметры атаки по умолчанию.
Запустите сканирование:
- В верхней панели нажмите кнопку Сканировать.
- Последовательно выберите модель Demo LLM, профиль Demo Jailbreak, при необходимости скорректируйте параметры и запустите сканирование.
Дождитесь завершения сканирования и откройте вкладки Общая статистика и Уязвимости — вы увидите найденные jailbreak-уязвимости с DREAD-оценками.

Что дальше¶

После успешного завершения первого сканирования рекомендуется:

Изучить Основные понятия для понимания всех сущностей системы.
Ознакомиться с Функциональными возможностями для использования расширенных функций.
Настроить профили с многоступенчатой цепочкой трансформаций Unified Transformation Framework для максимального покрытия.
Изучить Руководство пользователя для детальных инструкций по каждому разделу интерфейса.

Поле	Значение
Тестовый промпт	например, `Привет, что такое 2+2?`
Таймаут (секунды)	`60` (по умолчанию)

Поле	Значение
Имя профиля	`CV FGSM Quick Test`
Описание	`Быстрый тест FGSM на ResNet-50`
Тип профиля	`Изображения`

Поле	Значение
Имя профиля	`ASR DABA Quick Test`
Описание	`Тест бэкдор-инъекции DABA на Whisper`
Тип профиля	`Аудио`