Приложение A. Полная таблица атак¶
Полный справочник всех типов атак, доступных в платформе AppSec.GenAI.
LLM-атаки (Jailbreak)¶
В системе зарегистрирован один attack_type — jailbreak, который объединяет 18 подтипов атак. Подтипы настраиваются через словарь attacks в конфигурации профиля сканирования.
| attack_type | Подтип (subtype) | Режим | GPU | Сложность | Описание |
|---|---|---|---|---|---|
jailbreak |
jailbreak_plain |
Blackbox | Нет | Low | Базовая атака без трансформаций. Отправка промптов «как есть» для проверки базовой устойчивости модели. |
jailbreak |
jailbreak_roleplay |
Blackbox | Нет | Medium | Ролевые сценарии (DAN, AI Avatar, Evil Character и др.). Модель побуждается «войти в роль», обходя ограничения. |
jailbreak |
jailbreak_encoding |
Blackbox | Нет | Medium | Кодирование промптов (Base64, ROT13, Hex и др.). Модель получает закодированный запрос с инструкцией на декодирование. |
jailbreak |
jailbreak_obfuscation |
Blackbox | Нет | Medium | Обфускация текста (удаление гласных, разделение символов, внедрение опечаток и др.). Семантика сохраняется, но токенизация нарушается. |
jailbreak |
jailbreak_instruction_override |
Blackbox | Нет | Medium | Переопределение инструкций: no_refuse_rule, ignore_previous, developer_mode, policy_swap, memory_corruption. |
jailbreak |
jailbreak_output_format |
Blackbox | Нет | Medium | Манипуляция форматом вывода: prefix_format, dual_response, true_false_split. |
jailbreak |
jailbreak_persuasion |
Blackbox | Нет | Medium | Техники убеждения: research_purpose, medical_condition. |
jailbreak |
jailbreak_task_deflection |
Blackbox | Нет | Medium | Отвлечение задачи: fiction_writer, training_data, encyclopedia, reverse_prompt. |
jailbreak |
jailbreak_text_structure |
Blackbox | Нет | Medium | Манипуляция структурой текста: variable_assignment, json_schema. |
jailbreak |
jailbreak_semantic_hijacking |
Blackbox | Нет | Medium | Семантический перехват: opposite_day, meaning_inversion. |
jailbreak |
jailbreak_icl |
Blackbox | Нет | Medium | In-Context Learning: pattern_continuation. |
jailbreak |
jailbreak_noise_flooding |
Blackbox | Нет | Medium | Зашумление контекста: distraction. |
jailbreak |
jailbreak_data_instructions |
Blackbox | Нет | Medium | Данные как инструкции: system_message_spoof. |
jailbreak |
jailbreak_pipeline |
Blackbox | Нет | High | Многоступенчатые цепочки трансформаций (Unified Transformation Pipeline). Комбинирует кодирование, обфускацию и ролевые сценарии в произвольном порядке. |
jailbreak |
jailbreak_crescendo |
Blackbox | Нет | High | Многоходовая атака с постепенной эскалацией. Серия из нескольких сообщений, каждое из которых подготавливает модель к следующему. |
jailbreak |
jailbreak_breakfun |
Blackbox | Нет | High | Jailbreak через юмористический контекст с использованием Trojan Schema (12 категорий). |
jailbreak |
jailbreak_function_injection |
Blackbox | Нет | High | Эксплуатация механизма вызова функций (tool use). Инъекция вредоносных инструкций через имена и описания функций. |
jailbreak |
jailbreak_camo |
Blackbox | Нет | High | Cross-Modal Obfuscation (text-only, arXiv:2506.16760). Промпт фрагментируется на 2–6 коротких частей, в выбранных «чувствительных» словах часть букв маскируется (vowels / stars / leet / mixed), модели даётся meta-prompt на реконструкцию исходного вопроса. |
Примечание
В API все подтипы настраиваются внутри единого attack_type: "jailbreak" через словарь attacks. Каждый подтип можно включить/выключить независимо с помощью флага enabled.
CV-атаки (Компьютерное зрение)¶
19 атак на модели классификации изображений. Каждая атака — отдельный attack_type.
| # | attack_type | Название | Режим | GPU | Сложность | Время (мин) | Ключевые параметры |
|---|---|---|---|---|---|---|---|
| 1 | cv_fgsm |
FGSM (Fast Gradient Sign Method) | Whitebox | Да | Low | 5 | epsilon |
| 2 | cv_ifgsm |
I-FGSM (Iterative FGSM / BIM) | Whitebox | Да | Medium | 10 | epsilon, alpha, iterations |
| 3 | cv_mifgsm |
MI-FGSM (Momentum Iterative FGSM) | Whitebox | Да | Medium | 10 | epsilon, alpha, iterations, decay |
| 4 | cv_pgd |
PGD (Projected Gradient Descent) | Whitebox | Да | Medium | 10 | epsilon, alpha, iterations |
| 5 | cv_cw |
C&W (Carlini & Wagner L2) | Whitebox | Да | High | 15 | c, kappa, iterations, learning_rate |
| 6 | cv_deepfool |
DeepFool | Whitebox | Да | High | 15 | max_iterations, overshoot |
| 7 | cv_uap |
UAP (Universal Adversarial Perturbation) | Whitebox | Да | Medium | 20 | epsilon, max_iterations, fooling_rate |
| 8 | cv_app |
APP (Adversarial Patch) | Whitebox | Да | High | 20 | patch_size, iterations, learning_rate |
| 9 | cv_ti |
TI (Translation-Invariant) | Whitebox | Да | High | 15 | epsilon, alpha, iterations, kernel_size |
| 10 | cv_jsma |
JSMA (Jacobian Saliency Map Attack) | Whitebox | Да | Medium | 15 | theta, gamma, max_iterations |
| 11 | cv_lbfgs |
L-BFGS | Whitebox | Да | High | 20 | c, iterations, binary_search_steps |
| 12 | cv_logbarrier |
LogBarrier | Whitebox | Да | High | 20 | iterations, learning_rate |
| 13 | cv_ila |
ILA (Intermediate Level Attack) | Whitebox | Да | High | 20 | epsilon, iterations, layer_name |
| 14 | cv_zoo |
ZOO (Zeroth Order Optimization) | Both | Да | Medium | 15 | epsilon, iterations, h |
| 15 | cv_tremba |
TREMBA (Transfer-based Ensemble) | Both | Нет | High | 20 | epsilon, iterations, population_size |
| 16 | cv_onepixel |
One Pixel Attack | Both | Да | Medium | 15 | pixels, max_iterations, population_size |
| 17 | cv_recoloradv |
ReColorAdv (Color Transform Attack) | Both | Да | Medium | 15 | epsilon, iterations, learning_rate |
| 18 | cv_sinir |
SinIR (Gaussian Noise Attack) | Whitebox | Да | Low | 10 | epsilon, std, iterations, learning_rate |
| 19 | cv_simple_blackbox |
Simple Black-Box Attack | Blackbox | Нет | Medium | 15 | epsilon, max_iterations, population_size, mutation_rate, max_queries |
Режимы доступа
- Whitebox — требуется доступ к градиентам модели (локальная модель).
- Blackbox — атака использует только предсказания модели (API).
- Both — поддерживает оба режима.
ASR-атаки (Распознавание речи)¶
6 атак на модели распознавания речи. Каждая атака — отдельный attack_type.
| # | attack_type | Название | Режим | GPU | Сложность | Время (мин) | Ключевые параметры |
|---|---|---|---|---|---|---|---|
| 1 | asr_daba |
DABA (Dual Adaptive Backdoor Attack) | Blackbox | Нет | High | 10 | frequency, duration, cycles, sampling_rate |
| 2 | asr_piba |
PIBA (Pitch-based Backdoor Attack) | Blackbox | Нет | Medium | 8 | frequency, duration, percentile, sampling_rate |
| 3 | asr_ultrasonic |
Ultrasonic Attack | Blackbox | Нет | High | 12 | frequency (20--60 kHz), duration, sampling_rate |
| 4 | asr_jingleback |
JingleBack | Blackbox | Нет | Medium | 15 | note_duration, phi, duration_percent, normalisation, melody_repetitions |
| 5 | asr_pbsm |
PBSM (Periodic Backdoor Signal Modulation) | Blackbox | Нет | High | 10 | frequency, duration, silence_duration, cycles |
| 6 | asr_bim |
BIM (Basic Iterative Method) | Whitebox | Да | High | 30 | target_transcription, eps, alpha, num_iters, model_name |
Особенность BIM
Атака BIM — единственная whitebox-атака в категории ASR. Она требует локальной модели Whisper для вычисления градиентов и GPU для оптимизации. Все остальные ASR-атаки работают в режиме blackbox.
Сводная таблица¶
| Категория | Количество attack_type | Режим | Требуется GPU |
|---|---|---|---|
| LLM (Jailbreak) | 1 (17 подтипов) | Blackbox | Нет |
| CV (Компьютерное зрение) | 19 | Whitebox / Blackbox / Both | Да (17 из 19) |
| ASR (Распознавание речи) | 6 | Blackbox / Whitebox | Только BIM |
| Итого | 26 attack_type | — | — |
Общие параметры
Все CV-атаки принимают параметры image_source, image_file_id, targeted, target_class. Все ASR-атаки принимают audio_source, audio_file_id, sampling_rate.