Перейти к содержанию

Приложение A. Полная таблица атак

Полный справочник всех типов атак, доступных в платформе AppSec.GenAI.


LLM-атаки (Jailbreak)

В системе зарегистрирован один attack_typejailbreak, который объединяет 18 подтипов атак. Подтипы настраиваются через словарь attacks в конфигурации профиля сканирования.

attack_type Подтип (subtype) Режим GPU Сложность Описание
jailbreak jailbreak_plain Blackbox Нет Low Базовая атака без трансформаций. Отправка промптов «как есть» для проверки базовой устойчивости модели.
jailbreak jailbreak_roleplay Blackbox Нет Medium Ролевые сценарии (DAN, AI Avatar, Evil Character и др.). Модель побуждается «войти в роль», обходя ограничения.
jailbreak jailbreak_encoding Blackbox Нет Medium Кодирование промптов (Base64, ROT13, Hex и др.). Модель получает закодированный запрос с инструкцией на декодирование.
jailbreak jailbreak_obfuscation Blackbox Нет Medium Обфускация текста (удаление гласных, разделение символов, внедрение опечаток и др.). Семантика сохраняется, но токенизация нарушается.
jailbreak jailbreak_instruction_override Blackbox Нет Medium Переопределение инструкций: no_refuse_rule, ignore_previous, developer_mode, policy_swap, memory_corruption.
jailbreak jailbreak_output_format Blackbox Нет Medium Манипуляция форматом вывода: prefix_format, dual_response, true_false_split.
jailbreak jailbreak_persuasion Blackbox Нет Medium Техники убеждения: research_purpose, medical_condition.
jailbreak jailbreak_task_deflection Blackbox Нет Medium Отвлечение задачи: fiction_writer, training_data, encyclopedia, reverse_prompt.
jailbreak jailbreak_text_structure Blackbox Нет Medium Манипуляция структурой текста: variable_assignment, json_schema.
jailbreak jailbreak_semantic_hijacking Blackbox Нет Medium Семантический перехват: opposite_day, meaning_inversion.
jailbreak jailbreak_icl Blackbox Нет Medium In-Context Learning: pattern_continuation.
jailbreak jailbreak_noise_flooding Blackbox Нет Medium Зашумление контекста: distraction.
jailbreak jailbreak_data_instructions Blackbox Нет Medium Данные как инструкции: system_message_spoof.
jailbreak jailbreak_pipeline Blackbox Нет High Многоступенчатые цепочки трансформаций (Unified Transformation Pipeline). Комбинирует кодирование, обфускацию и ролевые сценарии в произвольном порядке.
jailbreak jailbreak_crescendo Blackbox Нет High Многоходовая атака с постепенной эскалацией. Серия из нескольких сообщений, каждое из которых подготавливает модель к следующему.
jailbreak jailbreak_breakfun Blackbox Нет High Jailbreak через юмористический контекст с использованием Trojan Schema (12 категорий).
jailbreak jailbreak_function_injection Blackbox Нет High Эксплуатация механизма вызова функций (tool use). Инъекция вредоносных инструкций через имена и описания функций.
jailbreak jailbreak_camo Blackbox Нет High Cross-Modal Obfuscation (text-only, arXiv:2506.16760). Промпт фрагментируется на 2–6 коротких частей, в выбранных «чувствительных» словах часть букв маскируется (vowels / stars / leet / mixed), модели даётся meta-prompt на реконструкцию исходного вопроса.

Примечание

В API все подтипы настраиваются внутри единого attack_type: "jailbreak" через словарь attacks. Каждый подтип можно включить/выключить независимо с помощью флага enabled.


CV-атаки (Компьютерное зрение)

19 атак на модели классификации изображений. Каждая атака — отдельный attack_type.

# attack_type Название Режим GPU Сложность Время (мин) Ключевые параметры
1 cv_fgsm FGSM (Fast Gradient Sign Method) Whitebox Да Low 5 epsilon
2 cv_ifgsm I-FGSM (Iterative FGSM / BIM) Whitebox Да Medium 10 epsilon, alpha, iterations
3 cv_mifgsm MI-FGSM (Momentum Iterative FGSM) Whitebox Да Medium 10 epsilon, alpha, iterations, decay
4 cv_pgd PGD (Projected Gradient Descent) Whitebox Да Medium 10 epsilon, alpha, iterations
5 cv_cw C&W (Carlini & Wagner L2) Whitebox Да High 15 c, kappa, iterations, learning_rate
6 cv_deepfool DeepFool Whitebox Да High 15 max_iterations, overshoot
7 cv_uap UAP (Universal Adversarial Perturbation) Whitebox Да Medium 20 epsilon, max_iterations, fooling_rate
8 cv_app APP (Adversarial Patch) Whitebox Да High 20 patch_size, iterations, learning_rate
9 cv_ti TI (Translation-Invariant) Whitebox Да High 15 epsilon, alpha, iterations, kernel_size
10 cv_jsma JSMA (Jacobian Saliency Map Attack) Whitebox Да Medium 15 theta, gamma, max_iterations
11 cv_lbfgs L-BFGS Whitebox Да High 20 c, iterations, binary_search_steps
12 cv_logbarrier LogBarrier Whitebox Да High 20 iterations, learning_rate
13 cv_ila ILA (Intermediate Level Attack) Whitebox Да High 20 epsilon, iterations, layer_name
14 cv_zoo ZOO (Zeroth Order Optimization) Both Да Medium 15 epsilon, iterations, h
15 cv_tremba TREMBA (Transfer-based Ensemble) Both Нет High 20 epsilon, iterations, population_size
16 cv_onepixel One Pixel Attack Both Да Medium 15 pixels, max_iterations, population_size
17 cv_recoloradv ReColorAdv (Color Transform Attack) Both Да Medium 15 epsilon, iterations, learning_rate
18 cv_sinir SinIR (Gaussian Noise Attack) Whitebox Да Low 10 epsilon, std, iterations, learning_rate
19 cv_simple_blackbox Simple Black-Box Attack Blackbox Нет Medium 15 epsilon, max_iterations, population_size, mutation_rate, max_queries

Режимы доступа

  • Whitebox — требуется доступ к градиентам модели (локальная модель).
  • Blackbox — атака использует только предсказания модели (API).
  • Both — поддерживает оба режима.

ASR-атаки (Распознавание речи)

6 атак на модели распознавания речи. Каждая атака — отдельный attack_type.

# attack_type Название Режим GPU Сложность Время (мин) Ключевые параметры
1 asr_daba DABA (Dual Adaptive Backdoor Attack) Blackbox Нет High 10 frequency, duration, cycles, sampling_rate
2 asr_piba PIBA (Pitch-based Backdoor Attack) Blackbox Нет Medium 8 frequency, duration, percentile, sampling_rate
3 asr_ultrasonic Ultrasonic Attack Blackbox Нет High 12 frequency (20--60 kHz), duration, sampling_rate
4 asr_jingleback JingleBack Blackbox Нет Medium 15 note_duration, phi, duration_percent, normalisation, melody_repetitions
5 asr_pbsm PBSM (Periodic Backdoor Signal Modulation) Blackbox Нет High 10 frequency, duration, silence_duration, cycles
6 asr_bim BIM (Basic Iterative Method) Whitebox Да High 30 target_transcription, eps, alpha, num_iters, model_name

Особенность BIM

Атака BIM — единственная whitebox-атака в категории ASR. Она требует локальной модели Whisper для вычисления градиентов и GPU для оптимизации. Все остальные ASR-атаки работают в режиме blackbox.


Сводная таблица

Категория Количество attack_type Режим Требуется GPU
LLM (Jailbreak) 1 (17 подтипов) Blackbox Нет
CV (Компьютерное зрение) 19 Whitebox / Blackbox / Both Да (17 из 19)
ASR (Распознавание речи) 6 Blackbox / Whitebox Только BIM
Итого 26 attack_type

Общие параметры

Все CV-атаки принимают параметры image_source, image_file_id, targeted, target_class. Все ASR-атаки принимают audio_source, audio_file_id, sampling_rate.