Перейти к содержанию

Глоссарий

Сокращения

Сокращение Расшифровка
ИБ Информационная безопасность
ИИ Искусственный интеллект
МО Машинное обучение
ПО Программное обеспечение
СУБД Система управления базами данных
БД База данных

Термины

Adversarial Example (состязательный пример)
Входные данные, специально модифицированные для того, чтобы вызвать ошибку AI/ML-модели. Визуально (или на слух) изменения неотличимы от оригинала, но модель даёт некорректный результат. Применяется в CV- и ASR-атаках. См. Функциональные возможности — CV.
API Contract (API-контракт)
Описание способа взаимодействия AppSec.GenAI с тестируемой моделью: API Endpoint, Тип аутентификации, Шаблон запроса (JSON), Путь к ответу (JSONPath), Таймаут. Задаётся на шаге Настройка API мастера регистрации модели. См. Основные понятия — API-контракт.
APP (Adversarial Patch)
Атака компьютерного зрения, при которой на изображение накладывается специально сгенерированный «патч» (фрагмент), вызывающий ошибку классификации. Может быть реализована физически (наклейка на объект).
ASR (Automatic Speech Recognition)
Автоматическое распознавание речи. Модальность тестирования в AppSec.GenAI, включающая 6 типов атак на модели распознавания аудио. См. Функциональные возможности — ASR.
Attack Type (тип атаки)
Категория атаки в каталоге системы (например, FGSM, DABA, Jailbreak Attack Suite). Определяет метод воздействия и параметры атаки. Всего доступно 44 атаки: 19 LLM (техники Jailbreak Attack Suite) + 19 CV + 6 ASR. См. Основные понятия — Атака.
BIM (Basic Iterative Method)
Итеративный градиентный метод создания adversarial-примеров. В контексте ASR — применяется к аудиоданным. В контексте CV — аналогичен I-FGSM.
Blackbox (чёрный ящик)
Сценарий тестирования, при котором атакующий не имеет доступа к внутренней структуре модели (весам, градиентам). Используются только входы и выходы модели. В каталоге CV-атак единственная чисто Black-box-атака — Simple Black-Box (остальные относятся к White-box или Hybrid).
BreakFun
Тип jailbreak-атаки, использующий юмористический контекст для обхода защитных механизмов языковой модели. Модель просят «пошутить» на запрещённую тему, что может привести к генерации нежелательного контента.
C&W (Carlini & Wagner)
Атака компьютерного зрения, минимизирующая L2-норму adversarial-возмущения через оптимизацию. Считается одной из наиболее мощных whitebox-атак.
CAMO (Cross-Modal Obfuscation)
Техника джейлбрейка в составе Jailbreak Attack Suite — кросс-модальная обфускация (text-only). Относится к продвинутым режимам.
Composition Mode (режим композиции)
Способ комбинирования нескольких трансформаций в рамках одного этапа пайплайна: parallel (каждая техника создаёт отдельный вариант), sequential (техники применяются последовательно), none (только первая техника). См. Основные понятия — Трансформация.
Crescendo
Многоходовая jailbreak-атака с постепенной эскалацией контекста. Начинается с невинного запроса и в каждом последующем ходе направляет модель к целевому вредоносному контенту, используя контекст предыдущих ответов. Обычно требует 3--8 ходов.
CV (Computer Vision)
Компьютерное зрение. Модальность тестирования в AppSec.GenAI, включающая 19 типов adversarial-атак на модели классификации и детекции изображений. См. Функциональные возможности — CV.
DABA (Dual Adaptive Backdoor Attack)
ASR-атака, внедряющая двойной адаптивный бэкдор в аудиосигнал. Бэкдор активируется при наличии определённого триггера в аудиопотоке.
DAN (Do Anything Now)
Один из наиболее известных ролевых jailbreak-сценариев. Промпт просит модель «стать DAN — альтер-эго без ограничений». Одна из 9 ролевых техник в составе Jailbreak Attack Suite.
DeepFool
Whitebox-атака компьютерного зрения, находящая минимальное возмущение, достаточное для пересечения границы решения классификатора. Позволяет оценить «запас прочности» классификации.
DoubleSpeak
Техника джейлбрейка в составе Jailbreak Attack Suite — Representation Hijacking. Использует двусмысленность и эвфемизмы для маскировки запрещённого запроса. Относится к продвинутым режимам.
DREAD
Методология оценки рисков, адаптированная для AI/ML-уязвимостей. Аббревиатура: **D**amage (ущерб), **R**eproducibility (воспроизводимость), **E**xploitability (эксплуатируемость), **A**ffected users (охват), **D**iscoverability (обнаруживаемость). Каждый компонент оценивается по шкале 1--10, итоговая оценка — среднее арифметическое. См. Основные понятия — DREAD.
Encoding (кодирование)
Категория jailbreak-трансформаций, преобразующих текст промпта в закодированную форму (Base64, ROT13, Hex, Morse и др.) для обхода текстовых фильтров модели. 10 техник. См. Основные понятия — Трансформация.
Endpoint (эндпоинт)
URL-адрес API тестируемой модели, на который AppSec.GenAI отправляет HTTP-запросы с входными данными атаки.
FGSM (Fast Gradient Sign Method)
Быстрый градиентный метод создания adversarial-примеров для моделей компьютерного зрения. Добавляет к изображению возмущение по знаку градиента функции потерь. Самая быстрая, но наименее точная whitebox-атака.
Function Injection
Тип jailbreak-атаки, эксплуатирующий механизм вызова функций (tool use / function calling) языковой модели. Атакующий формирует запрос так, чтобы модель вызвала функцию с вредоносными параметрами.
Health Check (проверка здоровья)
Механизм контроля доступности сервисов и моделей. Для сервисов — HTTP-запрос к /health. Для моделей — Probe-диагностика.
Hybrid (гибридный)
Сценарий тестирования CV-атак, при котором атака поддерживает работу в обоих режимах — White-box (с доступом к градиентам модели) и Black-box (только через предсказания). Примеры: SinIR, One Pixel, ZOO.
I-FGSM (Iterative FGSM)
Итеративная версия FGSM. Вместо одного большого шага выполняет множество малых шагов, что повышает точность adversarial-примера.
Jailbreak (джейлбрейк)
Метод обхода защитных ограничений языковой модели с целью получения ответов, которые модель обычно отказывается генерировать. В AppSec.GenAI — основной тип атаки на LLM. См. Функциональные возможности — LLM.
Jailbreak Attack Suite
Единая сводная атака на LLM в AppSec.GenAI, объединяющая 19 техник джейлбрейка: 11 основных тактик (Plain, Roleplay, Output Formatting, Instruction Override, Task Deflection, Text Structure, Semantic Hijacking, Persuasion, Data-as-Instructions, In-Context Learning, Noise Flooding), 2 трансформации (Encoding, Obfuscation), 5 продвинутых режимов (Break Fun, Function Injection, DoubleSpeak, CAMO, Crescendo) и Unified Pipeline. См. Основные понятия — Атака.
JingleBack
ASR-атака, внедряющая бэкдор через музыкальные паттерны (джинглы) в аудиосигнал.
JSMA (Jacobian Saliency Map Attack)
Whitebox-атака компьютерного зрения, использующая карту значимости Якобиана для определения наиболее влиятельных пикселей и точечной модификации.
Judge (система оценки)
Компонент jailbreak-сервиса, оценивающий ответ модели на предмет успешности атаки. Поддерживает три стратегии: simple (паттерны), llm (внешняя LLM), orchestrator (ансамбль детекторов). См. Основные понятия — Judge.
LLM (Large Language Model)
Большая языковая модель. Модальность тестирования в AppSec.GenAI: единая сводная атака Jailbreak Attack Suite, объединяющая 19 техник джейлбрейка (включая 10 кодирований и 9 обфускаций в составе техник Encoding и Obfuscation). Примеры: GPT-4o, Claude, GigaChat. См. Функциональные возможности — LLM.
MI-FGSM (Momentum Iterative FGSM)
Усовершенствованная версия I-FGSM с использованием моментума для стабилизации направления возмущения на каждой итерации.
Obfuscation (обфускация)
Категория jailbreak-трансформаций, изменяющих внешний вид текста без изменения его смысла (zero-width символы, удаление гласных, опечатки и др.). Цель — обход текстовых фильтров. 9 техник. См. Основные понятия — Трансформация.
One Pixel Attack
Hybrid-атака компьютерного зрения, изменяющая значение одного или нескольких пикселей изображения для обмана классификатора. Демонстрирует хрупкость нейросетей.
Pass-through (сквозной режим)
Режим работы, при котором данные передаются без обработки. В контексте трансформаций — оригинальный промпт включается в набор вариантов без изменений.
PBSM (Periodic Backdoor Signal Modulation)
ASR-атака, внедряющая бэкдор через периодическую модуляцию аудиосигнала. Триггер активируется при определённой частоте модуляции.
PGD (Projected Gradient Descent)
Whitebox-атака компьютерного зрения, выполняющая итеративный градиентный спуск с проекцией на допустимое множество (epsilon-шар). Считается «золотым стандартом» adversarial-тестирования.
PIBA (Pitch-based Backdoor Attack)
ASR-атака, внедряющая бэкдор через модуляцию высоты тона (pitch) аудиосигнала.
Pipeline (пайплайн)
Многоступенчатая цепочка трансформаций в Unified Pipeline. Каждый этап применяет набор техник к результатам предыдущего этапа. См. Основные понятия — Трансформация.
Probe (зондирование)
Функция диагностики подключения к модели. Проверяет сетевую доступность, аутентификацию, корректность формата запроса/ответа и латентность.
Profile (профиль сканирования)
Именованный набор конфигураций атак для многократного использования. Определяет типы атак, параметры и стратегию оценки. См. Основные понятия — Профиль.
Provider (провайдер)
Шаблон конфигурации для регистрации модели. Содержит предзаполненные настройки API-контракта для конкретного поставщика (OpenAI, Claude и др.). 6 встроенных + custom. См. Основные понятия — Провайдер.
ReColorAdv
White-box-атака компьютерного зрения, изменяющая цветовое пространство изображения для обмана классификатора. Не добавляет шума, а перераспределяет цвета.
Roleplay (ролевой сценарий)
Техника Jailbreak Attack Suite, оборачивающая промпт в ролевой контекст. Модель просят «войти в роль», которая не имеет ограничений. В системе 9 ролевых техник: AI Avatar, DAN, Evil Character, Anime Persona, Expert Persona, Fictional Character, Future Reality, Game Master, Sci-Fi Setting. В Unified Pipeline используется как стадия типа roleplay. См. Основные понятия — Атака.
Scan (сканирование)
Процесс тестирования конкретной модели по конкретному профилю (сканирование по профилю) или одной выбранной атакой (атомарное сканирование). В UI отображается с одним из четырёх статусов: Запущен, Завершён, Отменён, Ошибка. См. Основные понятия — Сканирование.
Severity (серьёзность)
Уровень серьёзности уязвимости, определяемый по DREAD-оценке: Critical (9.0--10.0), High (7.0--8.9), Medium (4.0--6.9), Low (1.0--3.9), Info (0.0--0.9).
SinIR (Structured Gaussian Noise)
Hybrid-атака компьютерного зрения, добавляющая структурированный гауссовский шум к изображению. Простая, но эффективная техника для оценки базовой устойчивости модели.
Simple Black-Box Attack
Простая blackbox-атака компьютерного зрения методом случайного поиска в пространстве возмущений.
TI (Translation-Invariant)
Whitebox-атака компьютерного зрения, создающая adversarial-примеры, устойчивые к трансляционным (пространственным) преобразованиям изображения.
Transformation (трансформация)
Техника преобразования текста промпта перед отправкой модели. Используется для обхода защитных механизмов. 19 техник в 2 категориях: кодирование (10), обфускация (9). 9 ролевых техник реализованы как отдельная техника Jailbreak Attack Suite и могут использоваться как стадия Unified Pipeline. См. Основные понятия — Трансформация.
TREMBA (Transfer-based Ensemble)
White-box-атака компьютерного зрения, использующая трансферное обучение и ансамбль суррогатных моделей для генерации adversarial-примеров.
UAP (Universal Adversarial Perturbation)
White-box-атака компьютерного зрения, создающая единое универсальное возмущение, которое обманывает модель на множестве различных изображений.
Ultrasonic Attack (ультразвуковая атака)
ASR-атака, использующая ультразвуковые частоты (неслышимые для человека, но воспринимаемые микрофоном) для внедрения скрытых команд в аудиопоток.
Unified Pipeline
Многостадийный конвейер произвольных трансформаций промптов в составе Jailbreak Attack Suite. Позволяет комбинировать кодирования (10 техник), обфускации (9 техник) и ролевые сценарии (9 техник) в произвольном порядке. Поддерживает 3 режима композиции на этапе: parallel, sequential, none. См. Основные понятия — Трансформация.
Vulnerability (уязвимость)
Обнаруженная проблема безопасности модели, зафиксированная по результатам атаки. Содержит промпт, ответ модели, DREAD-оценку, вердикт Judge и связанные артефакты. См. Основные понятия — Уязвимость.
Whitebox (белый ящик)
Сценарий тестирования, при котором атакующий имеет полный доступ к внутренней структуре модели (весам, архитектуре, градиентам). Позволяет использовать более точные, но требующие вычислительных ресурсов атаки. Примеры: FGSM, PGD, C&W, DeepFool.
ZOO (Zeroth Order Optimization)
Hybrid-атака компьютерного зрения, оценивающая градиенты через конечные разности (без прямого доступа к модели). Точная, но вычислительно дорогая.