Приложение A. Полная таблица атак¶

Справочник всех атак, доступных в AppSec.GenAI, по трём модальностям: LLM (текст), CV (изображения) и ASR (распознавание речи).

LLM-атаки (джейлбрейк)¶

Для тестирования LLM используется единая сводная атака Jailbreak Attack Suite, объединяющая 19 техник джейлбрейка. Техники включаются и настраиваются в подразделах «Тактики атак» и «Unified Pipeline» при создании профиля сканирования.

#	Техника	Тип доступа	GPU	Сложность	Подраздел	Описание
1	Plain	Black-box	Нет	Низкая	Тактики атак → Основные тактики	Прямая отправка промптов без трансформаций (baseline)
2	Roleplay	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Ролевые сценарии (AI Avatar, DAN, Evil Character и др.)
3	Output Formatting	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Манипуляция форматом вывода
4	Instruction Override	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Переопределение/обход инструкций модели
5	Task Deflection	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Отвлечение задачи
6	Text Structure	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Манипуляция структурой текста
7	Semantic Hijacking	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Семантический перехват
8	Persuasion	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Убеждение, социальная инженерия
9	Data-as-Instructions	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Подача данных как инструкций
10	In-Context Learning	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Обучение в контексте через примеры
11	Noise Flooding	Black-box	Нет	Средняя	Тактики атак → Основные тактики	Зашумление контекста
12	Encoding	Black-box	Нет	Средняя	Тактики атак → Трансформации	Кодирование промптов
13	Obfuscation	Black-box	Нет	Средняя	Тактики атак → Трансформации	Обфускация текста
14	Break Fun	Black-box	Нет	Высокая	Тактики атак → Продвинутые режимы	Schema Exploitation
15	Function Injection	Black-box	Нет	Высокая	Тактики атак → Продвинутые режимы	Tool Use Injection — инъекция через вызовы функций
16	DoubleSpeak	Black-box	Нет	Высокая	Тактики атак → Продвинутые режимы	Representation Hijacking
17	CAMO	Black-box	Нет	Высокая	Тактики атак → Продвинутые режимы	Cross-Modal Obfuscation (text-only)
18	Crescendo	Black-box	Нет	Высокая	Тактики атак → Продвинутые режимы	Многоходовая эскалация диалога
19	Unified Pipeline	Black-box	Нет	Высокая	Unified Pipeline	Многостадийный конвейер трансформаций промптов

Подробнее

Полное описание техник, параметров и конфигурации судьи приведено в разделе Джейлбрейк-атаки.

CV-атаки (изображения)¶

19 состязательных атак на модели компьютерного зрения.

Атака	Тип доступа	GPU	Сложность	Время (мин)	Краткое описание
FGSM	White-box	Да	Низкая	5	Одношаговая атака на основе знака градиента
I-FGSM (BIM)	White-box	Да	Средняя	10	Итеративная версия FGSM
MI-FGSM	White-box	Да	Средняя	12	Итеративная атака с накоплением импульса градиента
PGD	White-box	Да	Высокая	20	Итеративная атака с проекцией и случайными рестартами
DeepFool	White-box	Да	Средняя	15	Минимальное возмущение для пересечения границы решения
C&W (L2)	White-box	Да	Высокая	30	Оптимизационная атака с минимальным L2-возмущением
JSMA	White-box	Да	Высокая	25	Модификация наиболее значимых пикселей по матрице Якоби
L-BFGS	White-box	Да	Высокая	20	Квази-ньютоновская оптимизация минимального возмущения
LogBarrier	White-box	Да	Высокая	20	Метод внутренних точек с логарифмическим барьером
SinIR	Hybrid	Да	Низкая	10	Структурированный гауссовский шум
ILA	White-box	Да	Средняя	15	Атака на промежуточные слои сети
ReColorAdv	White-box	Да	Средняя	15	Состязательные цветовые трансформации
TI	White-box	Да	Средняя	15	Свёртка градиентов с гауссовским ядром для переносимости
TREMBA	White-box	Да	Средняя	20	Ансамбль входных трансформаций для переносимости
APP	White-box	Да	Высокая	60	Состязательный патч для физических атак
UAP	White-box	Да	Высокая	45	Единое возмущение, действующее на любые изображения
Simple Black-Box	Black-box	Нет	Средняя	15	Эволюционная атака по предсказаниям модели
One Pixel	Hybrid	Нет	Высокая	30	Модификация нескольких пикселей дифференциальной эволюцией
ZOO	Hybrid	Нет	Высокая	40	Оценка градиентов методом конечных разностей

Типы доступа

White-box — требуется доступ к весам и градиентам модели (локальная модель).
Black-box — атака использует только предсказания модели через API.
Hybrid — поддерживаются оба режима работы.

Подробнее

Полное описание атак, параметров и метрик приведено в разделе CV-атаки.

ASR-атаки (распознавание речи)¶

6 состязательных атак на модели распознавания речи.

Атака	Тип доступа	GPU	Сложность	Время (мин)	Краткое описание
DABA	Black-box	Нет	Высокая	10	Многоцикловая инъекция акустического триггера
PIBA	Black-box	Нет	Средняя	8	Триггер с адаптацией амплитуды по перцентилю
Ultrasonic	Black-box	Нет	Высокая	12	Команды на неслышимых ультразвуковых частотах
JingleBack	Black-box	Нет	Средняя	15	Музыкальный джингл как бэкдор-триггер
PBSM	Black-box	Нет	Высокая	10	Периодические триггеры, разделённые паузами
BIM	White-box	Да	Высокая	30	Градиентная атака для заданной транскрипции

Особенность BIM

BIM — единственная white-box-атака в категории ASR. Она требует GPU и локальную модель Whisper для вычисления градиентов. Все остальные ASR-атаки работают в режиме black-box.

Подробнее

Полное описание атак и параметров приведено в разделе ASR-атаки.

Model Injection (статический анализ файлов моделей)¶

Единый тип атаки model_injection (категория model_audit, в интерфейсе — «Model Injections») — статический анализ загруженного файла модели на исполняемые закладки и структурные уязвимости. Включает 40 сканеров, перекрывающих 42 из 44 форматных областей baseline modelaudit, плюс две собственные авторские техники. Применяется только к локальным моделям, GPU не требуется.

Группа проверок	Сканеры	Severity	Что детектит
Pickle-семейство	pickle_opcode, pytorch_zip, eop_version ⭐, eop_utf8 ⭐, numpy, joblib, weight_steganography	`critical`/`high`	Опасные callable (`__reduce__`/`GLOBAL`), broken-pickle, ZIP-аномалии, EOP-обходы (#13/#21), allow_pickle, LSB-стеганография
Keras / TensorFlow	keras_h5, keras_zip, tf_graph	`critical`/`high`	Lambda marshal (CVE-2024-3660), `kernel_initializer` import (CVE-2025-1550), опасные graph-op'ы
Safetensors	safetensors	`critical`/`high`/`medium`	Ext-mismatch, polyglot, header-DoS, offset-OOB, metadata-abuse
PMML (XML)	pmml	`high`/`medium`	XXE, external-DTD/SSRF, entity-DoS, XInclude, Extension-channel
Прочие форматы	onnx, gguf, flax/jax, torch7, tflite, coreml, mxnet, paddle, llamafile, skops, torchserve, nemo, cntk, rknn, catboost, xgboost, executorch, tensorrt	`critical`…`medium`	Формат-специфичные индикаторы + встроенный pickle
Контейнеры	zip, tar, compressed, sevenzip, rar	`high`	Рекурсивный скан вложенных моделей + path-traversal/symlink/zip-bomb (RAR — fail-closed)
Конфиги / шаблоны	jinja2_template, metadata, text	`high`/`medium`	SSTI, HF `auto_map`/`trust_remote_code`, подозрительные install/shell
Кросс-форматные	extension_mismatch, secret_leak	`high`/`medium`	Magic-vs-расширение, секреты в байтах файла

⭐ — авторские техники research-команды (обходят все публичные сканеры).

Подробнее

Полный каталог проверок, форматы и сценарии запуска — в разделе Model Injection Scan.

Сводная таблица¶

Категория	Количество атак	Типы доступа	GPU
LLM (джейлбрейк)	19 техник в составе Jailbreak Attack Suite	Black-box	Не требуется
CV (изображения)	19	White-box / Black-box / Hybrid	Требуется для большинства
ASR (распознавание речи)	6	Black-box / White-box	Только BIM
Model Injection (анализ файлов)	40 сканеров (42/44 форматных областей)	Статический (локальные модели)	Не требуется