Глоссарий¶

Сокращения¶

Сокращение	Расшифровка
ИБ	Информационная безопасность
ИИ	Искусственный интеллект
МО	Машинное обучение
ПО	Программное обеспечение
СУБД	Система управления базами данных
БД	База данных

Термины¶

Adversarial Example (состязательный пример): Входные данные, специально модифицированные для того, чтобы вызвать ошибку AI/ML-модели. Визуально (или на слух) изменения неотличимы от оригинала, но модель даёт некорректный результат. Применяется в CV- и ASR-атаках. См. Функциональные возможности — CV.
API Contract (API-контракт): Описание способа взаимодействия AppSec.GenAI с тестируемой моделью: API Endpoint, Тип аутентификации, Шаблон запроса (JSON), Путь к ответу (JSONPath), Таймаут. Задаётся на шаге Настройка API мастера регистрации модели. См. Основные понятия — API-контракт.
APP (Adversarial Patch): Атака компьютерного зрения, при которой на изображение накладывается специально сгенерированный «патч» (фрагмент), вызывающий ошибку классификации. Может быть реализована физически (наклейка на объект).
ASR (Automatic Speech Recognition): Автоматическое распознавание речи. Модальность тестирования в AppSec.GenAI, включающая 6 типов атак на модели распознавания аудио. См. Функциональные возможности — ASR.
Attack Type (тип атаки): Категория атаки в каталоге системы (например, FGSM, DABA, Jailbreak Attack Suite). Определяет метод воздействия и параметры атаки. Всего доступно 44 атаки: 19 LLM (техники Jailbreak Attack Suite) + 19 CV + 6 ASR. См. Основные понятия — Атака.
BIM (Basic Iterative Method): Итеративный градиентный метод создания adversarial-примеров. В контексте ASR — применяется к аудиоданным. В контексте CV — аналогичен I-FGSM.
Blackbox (чёрный ящик): Сценарий тестирования, при котором атакующий не имеет доступа к внутренней структуре модели (весам, градиентам). Используются только входы и выходы модели. В каталоге CV-атак единственная чисто Black-box-атака — Simple Black-Box (остальные относятся к White-box или Hybrid).
BreakFun: Тип jailbreak-атаки, использующий юмористический контекст для обхода защитных механизмов языковой модели. Модель просят «пошутить» на запрещённую тему, что может привести к генерации нежелательного контента.
C&W (Carlini & Wagner): Атака компьютерного зрения, минимизирующая L2-норму adversarial-возмущения через оптимизацию. Считается одной из наиболее мощных whitebox-атак.
CAMO (Cross-Modal Obfuscation): Техника джейлбрейка в составе Jailbreak Attack Suite — кросс-модальная обфускация (text-only). Относится к продвинутым режимам.
Composition Mode (режим композиции): Способ комбинирования нескольких трансформаций в рамках одного этапа пайплайна: parallel (каждая техника создаёт отдельный вариант), sequential (техники применяются последовательно), none (только первая техника). См. Основные понятия — Трансформация.
Crescendo: Многоходовая jailbreak-атака с постепенной эскалацией контекста. Начинается с невинного запроса и в каждом последующем ходе направляет модель к целевому вредоносному контенту, используя контекст предыдущих ответов. Обычно требует 3--8 ходов.
CV (Computer Vision): Компьютерное зрение. Модальность тестирования в AppSec.GenAI, включающая 19 типов adversarial-атак на модели классификации и детекции изображений. См. Функциональные возможности — CV.
DABA (Dual Adaptive Backdoor Attack): ASR-атака, внедряющая двойной адаптивный бэкдор в аудиосигнал. Бэкдор активируется при наличии определённого триггера в аудиопотоке.
DAN (Do Anything Now): Один из наиболее известных ролевых jailbreak-сценариев. Промпт просит модель «стать DAN — альтер-эго без ограничений». Одна из 9 ролевых техник в составе Jailbreak Attack Suite.
DeepFool: Whitebox-атака компьютерного зрения, находящая минимальное возмущение, достаточное для пересечения границы решения классификатора. Позволяет оценить «запас прочности» классификации.
DoubleSpeak: Техника джейлбрейка в составе Jailbreak Attack Suite — Representation Hijacking. Использует двусмысленность и эвфемизмы для маскировки запрещённого запроса. Относится к продвинутым режимам.
DREAD: Методология оценки рисков, адаптированная для AI/ML-уязвимостей. Аббревиатура: **D**amage (ущерб), **R**eproducibility (воспроизводимость), **E**xploitability (эксплуатируемость), **A**ffected users (охват), **D**iscoverability (обнаруживаемость). Каждый компонент оценивается по шкале 1--10, итоговая оценка — среднее арифметическое. См. Основные понятия — DREAD.
Encoding (кодирование): Категория jailbreak-трансформаций, преобразующих текст промпта в закодированную форму (Base64, ROT13, Hex, Morse и др.) для обхода текстовых фильтров модели. 10 техник. См. Основные понятия — Трансформация.
Endpoint (эндпоинт): URL-адрес API тестируемой модели, на который AppSec.GenAI отправляет HTTP-запросы с входными данными атаки.
FGSM (Fast Gradient Sign Method): Быстрый градиентный метод создания adversarial-примеров для моделей компьютерного зрения. Добавляет к изображению возмущение по знаку градиента функции потерь. Самая быстрая, но наименее точная whitebox-атака.
Function Injection: Тип jailbreak-атаки, эксплуатирующий механизм вызова функций (tool use / function calling) языковой модели. Атакующий формирует запрос так, чтобы модель вызвала функцию с вредоносными параметрами.
Health Check (проверка здоровья): Механизм контроля доступности сервисов и моделей. Для сервисов — HTTP-запрос к /health. Для моделей — Probe-диагностика.
Hybrid (гибридный): Сценарий тестирования CV-атак, при котором атака поддерживает работу в обоих режимах — White-box (с доступом к градиентам модели) и Black-box (только через предсказания). Примеры: SinIR, One Pixel, ZOO.
I-FGSM (Iterative FGSM): Итеративная версия FGSM. Вместо одного большого шага выполняет множество малых шагов, что повышает точность adversarial-примера.
Jailbreak (джейлбрейк): Метод обхода защитных ограничений языковой модели с целью получения ответов, которые модель обычно отказывается генерировать. В AppSec.GenAI — основной тип атаки на LLM. См. Функциональные возможности — LLM.
Jailbreak Attack Suite: Единая сводная атака на LLM в AppSec.GenAI, объединяющая 19 техник джейлбрейка: 11 основных тактик (Plain, Roleplay, Output Formatting, Instruction Override, Task Deflection, Text Structure, Semantic Hijacking, Persuasion, Data-as-Instructions, In-Context Learning, Noise Flooding), 2 трансформации (Encoding, Obfuscation), 5 продвинутых режимов (Break Fun, Function Injection, DoubleSpeak, CAMO, Crescendo) и Unified Pipeline. См. Основные понятия — Атака.
JingleBack: ASR-атака, внедряющая бэкдор через музыкальные паттерны (джинглы) в аудиосигнал.
JSMA (Jacobian Saliency Map Attack): Whitebox-атака компьютерного зрения, использующая карту значимости Якобиана для определения наиболее влиятельных пикселей и точечной модификации.
Judge (система оценки): Компонент jailbreak-сервиса, оценивающий ответ модели на предмет успешности атаки. Поддерживает три стратегии: simple (паттерны), llm (внешняя LLM), orchestrator (ансамбль детекторов). См. Основные понятия — Judge.
LLM (Large Language Model): Большая языковая модель. Модальность тестирования в AppSec.GenAI: единая сводная атака Jailbreak Attack Suite, объединяющая 19 техник джейлбрейка (включая 10 кодирований и 9 обфускаций в составе техник Encoding и Obfuscation). Примеры: GPT-4o, Claude, GigaChat. См. Функциональные возможности — LLM.
MI-FGSM (Momentum Iterative FGSM): Усовершенствованная версия I-FGSM с использованием моментума для стабилизации направления возмущения на каждой итерации.
Obfuscation (обфускация): Категория jailbreak-трансформаций, изменяющих внешний вид текста без изменения его смысла (zero-width символы, удаление гласных, опечатки и др.). Цель — обход текстовых фильтров. 9 техник. См. Основные понятия — Трансформация.
One Pixel Attack: Hybrid-атака компьютерного зрения, изменяющая значение одного или нескольких пикселей изображения для обмана классификатора. Демонстрирует хрупкость нейросетей.
Pass-through (сквозной режим): Режим работы, при котором данные передаются без обработки. В контексте трансформаций — оригинальный промпт включается в набор вариантов без изменений.
PBSM (Periodic Backdoor Signal Modulation): ASR-атака, внедряющая бэкдор через периодическую модуляцию аудиосигнала. Триггер активируется при определённой частоте модуляции.
PGD (Projected Gradient Descent): Whitebox-атака компьютерного зрения, выполняющая итеративный градиентный спуск с проекцией на допустимое множество (epsilon-шар). Считается «золотым стандартом» adversarial-тестирования.
PIBA (Pitch-based Backdoor Attack): ASR-атака, внедряющая бэкдор через модуляцию высоты тона (pitch) аудиосигнала.
Pipeline (пайплайн): Многоступенчатая цепочка трансформаций в Unified Pipeline. Каждый этап применяет набор техник к результатам предыдущего этапа. См. Основные понятия — Трансформация.
Probe (зондирование): Функция диагностики подключения к модели. Проверяет сетевую доступность, аутентификацию, корректность формата запроса/ответа и латентность.
Profile (профиль сканирования): Именованный набор конфигураций атак для многократного использования. Определяет типы атак, параметры и стратегию оценки. См. Основные понятия — Профиль.
Provider (провайдер): Шаблон конфигурации для регистрации модели. Содержит предзаполненные настройки API-контракта для конкретного поставщика (OpenAI, Claude и др.). 6 встроенных + custom. См. Основные понятия — Провайдер.
ReColorAdv: White-box-атака компьютерного зрения, изменяющая цветовое пространство изображения для обмана классификатора. Не добавляет шума, а перераспределяет цвета.
Roleplay (ролевой сценарий): Техника Jailbreak Attack Suite, оборачивающая промпт в ролевой контекст. Модель просят «войти в роль», которая не имеет ограничений. В системе 9 ролевых техник: AI Avatar, DAN, Evil Character, Anime Persona, Expert Persona, Fictional Character, Future Reality, Game Master, Sci-Fi Setting. В Unified Pipeline используется как стадия типа roleplay. См. Основные понятия — Атака.
Scan (сканирование): Процесс тестирования конкретной модели по конкретному профилю (сканирование по профилю) или одной выбранной атакой (атомарное сканирование). В UI отображается с одним из четырёх статусов: Запущен, Завершён, Отменён, Ошибка. См. Основные понятия — Сканирование.
Severity (серьёзность): Уровень серьёзности уязвимости, определяемый по DREAD-оценке: Critical (9.0--10.0), High (7.0--8.9), Medium (4.0--6.9), Low (1.0--3.9), Info (0.0--0.9).
SinIR (Structured Gaussian Noise): Hybrid-атака компьютерного зрения, добавляющая структурированный гауссовский шум к изображению. Простая, но эффективная техника для оценки базовой устойчивости модели.
Simple Black-Box Attack: Простая blackbox-атака компьютерного зрения методом случайного поиска в пространстве возмущений.
TI (Translation-Invariant): Whitebox-атака компьютерного зрения, создающая adversarial-примеры, устойчивые к трансляционным (пространственным) преобразованиям изображения.
Transformation (трансформация): Техника преобразования текста промпта перед отправкой модели. Используется для обхода защитных механизмов. 19 техник в 2 категориях: кодирование (10), обфускация (9). 9 ролевых техник реализованы как отдельная техника Jailbreak Attack Suite и могут использоваться как стадия Unified Pipeline. См. Основные понятия — Трансформация.
TREMBA (Transfer-based Ensemble): White-box-атака компьютерного зрения, использующая трансферное обучение и ансамбль суррогатных моделей для генерации adversarial-примеров.
UAP (Universal Adversarial Perturbation): White-box-атака компьютерного зрения, создающая единое универсальное возмущение, которое обманывает модель на множестве различных изображений.
Ultrasonic Attack (ультразвуковая атака): ASR-атака, использующая ультразвуковые частоты (неслышимые для человека, но воспринимаемые микрофоном) для внедрения скрытых команд в аудиопоток.
Unified Pipeline: Многостадийный конвейер произвольных трансформаций промптов в составе Jailbreak Attack Suite. Позволяет комбинировать кодирования (10 техник), обфускации (9 техник) и ролевые сценарии (9 техник) в произвольном порядке. Поддерживает 3 режима композиции на этапе: parallel, sequential, none. См. Основные понятия — Трансформация.
Vulnerability (уязвимость): Обнаруженная проблема безопасности модели, зафиксированная по результатам атаки. Содержит промпт, ответ модели, DREAD-оценку, вердикт Judge и связанные артефакты. См. Основные понятия — Уязвимость.
Whitebox (белый ящик): Сценарий тестирования, при котором атакующий имеет полный доступ к внутренней структуре модели (весам, архитектуре, градиентам). Позволяет использовать более точные, но требующие вычислительных ресурсов атаки. Примеры: FGSM, PGD, C&W, DeepFool.
ZOO (Zeroth Order Optimization): Hybrid-атака компьютерного зрения, оценивающая градиенты через конечные разности (без прямого доступа к модели). Точная, но вычислительно дорогая.