Часто задаваемые вопросы¶

Модели и провайдеры¶

Как зарегистрировать модель в AppSec.GenAI?

Перейдите в раздел Модели и нажмите Добавить.
Пройдите шаги мастера: укажите имя, тип (LLM / CV / ASR), эндпоинт, тип аутентификации и API-ключ; выберите провайдера (см. ниже).
На последнем шаге проверьте параметры и сохраните модель.

Какие провайдеры LLM поддерживаются «из коробки»?

В мастере регистрации модели доступны шаблоны для 6 встроенных провайдеров: OpenAI, Anthropic Claude, DeepSeek, Sber GigaChat, YandexGPT, HuggingFace. Для произвольной модели выберите опцию Custom (свой контракт) и заполните поля вручную.

Полные значения шаблонов, особенности интеграции и список поддерживаемых моделей — см. Приложение B. Провайдеры.

Как подключить GigaChat?

GigaChat использует OAuth2-авторизацию:

Получите Bearer-токен через https://ngw.devices.sberbank.ru:9443/api/v2/oauth.
При регистрации модели выберите шаблон Sber GigaChat — поля API Endpoint и Шаблон запроса заполнятся автоматически.
В поле API Ключ / Токен вставьте полученный Bearer-токен.
В шаблоне запроса убедитесь, что присутствует "stream": false.
На стороне инфраструктуры может потребоваться включить verify=false для HTTPS (сертификат Минцифры РФ).

Подробнее см. Приложение B → Sber GigaChat.

Что нужно скорректировать после выбора шаблона Anthropic или YandexGPT?

В UI оба шаблона автозаполняют поле Путь к ответу (JSONPath) значением choices[0].message.content (как у OpenAI). Это значение нужно заменить вручную:

Anthropic Claude: content[0].text, а также добавить заголовок anthropic-version: 2023-06-01 в Дополнительные настройки → Дополнительные заголовки (JSON).
YandexGPT: result.alternatives[0].message.text. В шаблоне запроса замените YOUR_FOLDER_ID на ID каталога в Yandex Cloud.

Подробнее см. Приложение B. Провайдеры.

Можно ли подключить self-hosted-модель (Ollama, vLLM)?

Да. Выберите в поле Провайдер опцию Custom (свой контракт) и заполните поля вручную. Для Ollama и vLLM подходит OpenAI-совместимый API:

Ollama: http://host.docker.internal:11434/v1/chat/completions, JSONPath choices[0].message.content.
vLLM: http://<server>:8000/v1/chat/completions, JSONPath choices[0].message.content.

Полные примеры конфигурации — см. Приложение B → Custom.

Какие типы моделей поддерживает система?

Тип модели	Модальность	Атаки
LLM	Текст	Jailbreak Attack Suite (19 техник)
CV	Изображения	19 состязательных атак
ASR / Speech	Аудио	6 атак на распознавание речи

Полный справочник атак — см. Приложение A. Полная таблица атак.

Профили и атаки¶

Сколько атак доступно в системе?

Всего 44 атаки:

LLM — 19 техник джейлбрейка в составе единой сводной атаки Jailbreak Attack Suite.
CV — 19 состязательных атак (White-box, Black-box, Hybrid).
ASR — 6 атак на модели распознавания речи.

Полный справочник — см. Приложение A. Полная таблица атак.

Чем атомарное сканирование отличается от сканирования по профилю?

По профилю — запуск набора атак, заданного в профиле сканирования. Профиль создаётся в разделе Профили сканирования и может содержать произвольный набор техник с параметрами.
Атомарное — запуск одной конкретной атаки без создания профиля. Запускается с карточки атаки в разделе Классификация атак. Удобно для быстрой проверки одной техники.

Подробнее см. Запуск и мониторинг сканирования.

Как выбрать подходящие атаки для моей модели?

Тип модели	Рекомендуемые атаки	Назначение
LLM (быстрая проверка)	Jailbreak Attack Suite с базовыми техниками (Plain, Roleplay, Encoding)	Базовое тестирование безопасности
LLM (глубокое тестирование)	Jailbreak Attack Suite + Unified Pipeline + продвинутые техники (Crescendo, DoubleSpeak, CAMO)	Многостадийные и многоходовые атаки
CV (с доступом к весам)	FGSM, PGD, C&W, APP	White-box-тестирование
CV (только API)	Simple Black-Box, One Pixel, ZOO	Black-box-тестирование
ASR (без GPU)	PBSM, DABA, PIBA, Jingleback, Ultrasonic	Бэкдор-атаки и инъекции триггеров
ASR (с GPU + Whisper)	BIM	Целенаправленное изменение транскрипции

Подробнее: Джейлбрейк-атаки, CV-атаки, ASR-атаки.

Что такое Unified Pipeline?

Unified Pipeline — многостадийный конвейер трансформации промптов в составе Jailbreak Attack Suite. Позволяет объединять кодирования, обфускации и ролеплеи в произвольные последовательности, существенно увеличивая количество вариантов атаки.

Подробнее с примерами расчёта числа запросов — см. Джейлбрейк-атаки → Unified Pipeline.

Сканирование¶

Сколько времени занимает сканирование?

Зависит от типа атаки, числа промптов или изображений, скорости ответа модели и rate limit. Ориентировочные значения:

Jailbreak (≈20 промптов, без трансформаций) — 2–5 минут.
Jailbreak с Unified Pipeline — 15–30 минут.
CV FGSM — 30 секунд — 2 минуты.
CV C&W / One Pixel — 20–30 минут.
ASR DABA / PIBA — 10–15 минут.
ASR Ultrasonic — 5–10 минут.

Полную таблицу и факторы, влияющие на длительность — см. Запуск сканирования → Оценка длительности.

Можно ли отменить запущенное сканирование?

Да, активное сканирование можно остановить кнопкой Отмена на странице сканирования. Уже найденные уязвимости и артефакты сохраняются и доступны для анализа. Отменённое сканирование невозможно возобновить — при необходимости запустите новое.

Подробнее см. Запуск сканирования → Отмена.

Можно ли запустить несколько сканирований одновременно?

Да. Параллельным выполнением управляет параметр Макс. параллельных задач на шаге Параметры диалога «Новое сканирование» (по умолчанию 3). Учитывайте, что:

GPU-ресурсы делятся между сканированиями.
Rate limit к одной модели суммируется по всем активным сканированиям.

Что означает статус «Ошибка»?

Сканирование завершается со статусом Ошибка, если все задания не смогли выполниться (например, модель недоступна, отозван API-ключ, превышен rate limit). Что делать:

Проверьте доступность целевой модели и корректность параметров подключения.
Запустите сканирование повторно — кнопка Повторить на странице сканирования создаст новый запуск с теми же параметрами.

Полный список статусов сканирования — см. Запуск сканирования → Статусы.

Результаты и уязвимости¶

Что такое DREAD-оценка?

DREAD — методология количественной оценки риска, состоящая из 5 компонентов: **D**amage, **R**eproducibility, **E**xploitability, **A**ffected Users, **D**iscoverability. Каждый компонент оценивается по шкале 1–10, итоговая оценка — среднее арифметическое. По итоговой оценке уязвимости присваивается серьёзность Critical / High / Medium / Low / Info.

Подробнее см. Результаты сканирования → DREAD-оценка.

Как отличить ложное срабатывание от реальной уязвимости?

Ориентируйтесь на значение DREAD и на содержимое полей Ответ модели, Индикаторы успеха и Вердикт в карточке уязвимости.

Признаки реальной уязвимости:

Модель выдала конкретные инструкции или данные, которые не должна была раскрывать.
В Индикаторах успеха указано «No rejection phrases detected» / «Full response provided without filtering» / «Model bypassed safety guardrails».
Вердикт jailbreak_successful.

Признаки ложного срабатывания:

Модель отказала в запросе (но Judge неверно интерпретировал отказ).
Ответ содержит только общую информацию, доступную в открытых источниках.
Ответ написан в рамках ролевой игры, но не содержит реально опасных данных.

Для пограничных случаев (DREAD 4–6) рекомендуется ручная проверка содержимого ответа.

Как экспортировать результаты сканирования?

На странице сканирования доступны два способа выгрузки:

Кнопка Экспорт — открывает диалог с выбором формата (CSV / JSON / XLSX), уровня серьёзности и опцией «Включать false positives».
Кнопка Скачать HTML-отчёт — единый сводный HTML-отчёт по сканированию.

Подробнее см. Результаты сканирования → Экспорт.

Где смотреть все попытки атаки, а не только успешные?

На вкладке Артефакты страницы сканирования. В уязвимости попадают только попытки, классифицированные как успешные, а в артефактах фиксируются все попытки — включая отражённые моделью.

Подробнее см. Результаты сканирования → Артефакты.