Глоссарий¶
Сокращения¶
| Сокращение | Расшифровка |
|---|---|
| ИБ | Информационная безопасность |
| ИИ | Искусственный интеллект |
| МО | Машинное обучение |
| ПО | Программное обеспечение |
| СУБД | Система управления базами данных |
| БД | База данных |
Термины¶
- Adversarial Example (состязательный пример)
- Входные данные, специально модифицированные для того, чтобы вызвать ошибку AI/ML-модели. Визуально (или на слух) изменения неотличимы от оригинала, но модель даёт некорректный результат. Применяется в CV- и ASR-атаках. См. Функциональные возможности — CV.
- API Contract (API-контракт)
- Описание способа взаимодействия AppSec.GenAI с тестируемой моделью: API Endpoint, Тип аутентификации, Шаблон запроса (JSON), Путь к ответу (JSONPath), Таймаут. Задаётся на шаге Настройка API мастера регистрации модели. См. Основные понятия — API-контракт.
- APP (Adversarial Patch)
- Атака компьютерного зрения, при которой на изображение накладывается специально сгенерированный «патч» (фрагмент), вызывающий ошибку классификации. Может быть реализована физически (наклейка на объект).
- ASR (Automatic Speech Recognition)
- Автоматическое распознавание речи. Модальность тестирования в AppSec.GenAI, включающая 6 типов атак на модели распознавания аудио. См. Функциональные возможности — ASR.
- Attack Type (тип атаки)
- Категория атаки в каталоге системы (например, FGSM, DABA, Jailbreak Attack Suite). Определяет метод воздействия и параметры атаки. Всего доступно 44 атаки: 19 LLM (техники Jailbreak Attack Suite) + 19 CV + 6 ASR. См. Основные понятия — Атака.
- BIM (Basic Iterative Method)
- Итеративный градиентный метод создания adversarial-примеров. В контексте ASR — применяется к аудиоданным. В контексте CV — аналогичен I-FGSM.
- Blackbox (чёрный ящик)
- Сценарий тестирования, при котором атакующий не имеет доступа к внутренней структуре модели (весам, градиентам). Используются только входы и выходы модели. В каталоге CV-атак единственная чисто Black-box-атака — Simple Black-Box (остальные относятся к White-box или Hybrid).
- BreakFun
- Тип jailbreak-атаки, использующий юмористический контекст для обхода защитных механизмов языковой модели. Модель просят «пошутить» на запрещённую тему, что может привести к генерации нежелательного контента.
- C&W (Carlini & Wagner)
- Атака компьютерного зрения, минимизирующая L2-норму adversarial-возмущения через оптимизацию. Считается одной из наиболее мощных whitebox-атак.
- CAMO (Cross-Modal Obfuscation)
- Техника джейлбрейка в составе Jailbreak Attack Suite — кросс-модальная обфускация (text-only). Относится к продвинутым режимам.
- Composition Mode (режим композиции)
- Способ комбинирования нескольких трансформаций в рамках одного этапа пайплайна:
parallel(каждая техника создаёт отдельный вариант),sequential(техники применяются последовательно),none(только первая техника). См. Основные понятия — Трансформация. - Crescendo
- Многоходовая jailbreak-атака с постепенной эскалацией контекста. Начинается с невинного запроса и в каждом последующем ходе направляет модель к целевому вредоносному контенту, используя контекст предыдущих ответов. Обычно требует 3--8 ходов.
- CV (Computer Vision)
- Компьютерное зрение. Модальность тестирования в AppSec.GenAI, включающая 19 типов adversarial-атак на модели классификации и детекции изображений. См. Функциональные возможности — CV.
- DABA (Dual Adaptive Backdoor Attack)
- ASR-атака, внедряющая двойной адаптивный бэкдор в аудиосигнал. Бэкдор активируется при наличии определённого триггера в аудиопотоке.
- DAN (Do Anything Now)
- Один из наиболее известных ролевых jailbreak-сценариев. Промпт просит модель «стать DAN — альтер-эго без ограничений». Одна из 9 ролевых техник в составе Jailbreak Attack Suite.
- DeepFool
- Whitebox-атака компьютерного зрения, находящая минимальное возмущение, достаточное для пересечения границы решения классификатора. Позволяет оценить «запас прочности» классификации.
- DoubleSpeak
- Техника джейлбрейка в составе Jailbreak Attack Suite — Representation Hijacking. Использует двусмысленность и эвфемизмы для маскировки запрещённого запроса. Относится к продвинутым режимам.
- DREAD
- Методология оценки рисков, адаптированная для AI/ML-уязвимостей. Аббревиатура: **D**amage (ущерб), **R**eproducibility (воспроизводимость), **E**xploitability (эксплуатируемость), **A**ffected users (охват), **D**iscoverability (обнаруживаемость). Каждый компонент оценивается по шкале 1--10, итоговая оценка — среднее арифметическое. См. Основные понятия — DREAD.
- Encoding (кодирование)
- Категория jailbreak-трансформаций, преобразующих текст промпта в закодированную форму (Base64, ROT13, Hex, Morse и др.) для обхода текстовых фильтров модели. 10 техник. См. Основные понятия — Трансформация.
- Endpoint (эндпоинт)
- URL-адрес API тестируемой модели, на который AppSec.GenAI отправляет HTTP-запросы с входными данными атаки.
- FGSM (Fast Gradient Sign Method)
- Быстрый градиентный метод создания adversarial-примеров для моделей компьютерного зрения. Добавляет к изображению возмущение по знаку градиента функции потерь. Самая быстрая, но наименее точная whitebox-атака.
- Function Injection
- Тип jailbreak-атаки, эксплуатирующий механизм вызова функций (tool use / function calling) языковой модели. Атакующий формирует запрос так, чтобы модель вызвала функцию с вредоносными параметрами.
- Health Check (проверка здоровья)
- Механизм контроля доступности сервисов и моделей. Для сервисов — HTTP-запрос к
/health. Для моделей — Probe-диагностика. - Hybrid (гибридный)
- Сценарий тестирования CV-атак, при котором атака поддерживает работу в обоих режимах — White-box (с доступом к градиентам модели) и Black-box (только через предсказания). Примеры: SinIR, One Pixel, ZOO.
- I-FGSM (Iterative FGSM)
- Итеративная версия FGSM. Вместо одного большого шага выполняет множество малых шагов, что повышает точность adversarial-примера.
- Jailbreak (джейлбрейк)
- Метод обхода защитных ограничений языковой модели с целью получения ответов, которые модель обычно отказывается генерировать. В AppSec.GenAI — основной тип атаки на LLM. См. Функциональные возможности — LLM.
- Jailbreak Attack Suite
- Единая сводная атака на LLM в AppSec.GenAI, объединяющая 19 техник джейлбрейка: 11 основных тактик (Plain, Roleplay, Output Formatting, Instruction Override, Task Deflection, Text Structure, Semantic Hijacking, Persuasion, Data-as-Instructions, In-Context Learning, Noise Flooding), 2 трансформации (Encoding, Obfuscation), 5 продвинутых режимов (Break Fun, Function Injection, DoubleSpeak, CAMO, Crescendo) и Unified Pipeline. См. Основные понятия — Атака.
- JingleBack
- ASR-атака, внедряющая бэкдор через музыкальные паттерны (джинглы) в аудиосигнал.
- JSMA (Jacobian Saliency Map Attack)
- Whitebox-атака компьютерного зрения, использующая карту значимости Якобиана для определения наиболее влиятельных пикселей и точечной модификации.
- Judge (система оценки)
- Компонент jailbreak-сервиса, оценивающий ответ модели на предмет успешности атаки. Поддерживает три стратегии:
simple(паттерны),llm(внешняя LLM),orchestrator(ансамбль детекторов). См. Основные понятия — Judge. - LLM (Large Language Model)
- Большая языковая модель. Модальность тестирования в AppSec.GenAI: единая сводная атака Jailbreak Attack Suite, объединяющая 19 техник джейлбрейка (включая 10 кодирований и 9 обфускаций в составе техник Encoding и Obfuscation). Примеры: GPT-4o, Claude, GigaChat. См. Функциональные возможности — LLM.
- MI-FGSM (Momentum Iterative FGSM)
- Усовершенствованная версия I-FGSM с использованием моментума для стабилизации направления возмущения на каждой итерации.
- Obfuscation (обфускация)
- Категория jailbreak-трансформаций, изменяющих внешний вид текста без изменения его смысла (zero-width символы, удаление гласных, опечатки и др.). Цель — обход текстовых фильтров. 9 техник. См. Основные понятия — Трансформация.
- One Pixel Attack
- Hybrid-атака компьютерного зрения, изменяющая значение одного или нескольких пикселей изображения для обмана классификатора. Демонстрирует хрупкость нейросетей.
- Pass-through (сквозной режим)
- Режим работы, при котором данные передаются без обработки. В контексте трансформаций — оригинальный промпт включается в набор вариантов без изменений.
- PBSM (Periodic Backdoor Signal Modulation)
- ASR-атака, внедряющая бэкдор через периодическую модуляцию аудиосигнала. Триггер активируется при определённой частоте модуляции.
- PGD (Projected Gradient Descent)
- Whitebox-атака компьютерного зрения, выполняющая итеративный градиентный спуск с проекцией на допустимое множество (epsilon-шар). Считается «золотым стандартом» adversarial-тестирования.
- PIBA (Pitch-based Backdoor Attack)
- ASR-атака, внедряющая бэкдор через модуляцию высоты тона (pitch) аудиосигнала.
- Pipeline (пайплайн)
- Многоступенчатая цепочка трансформаций в Unified Pipeline. Каждый этап применяет набор техник к результатам предыдущего этапа. См. Основные понятия — Трансформация.
- Probe (зондирование)
- Функция диагностики подключения к модели. Проверяет сетевую доступность, аутентификацию, корректность формата запроса/ответа и латентность.
- Profile (профиль сканирования)
- Именованный набор конфигураций атак для многократного использования. Определяет типы атак, параметры и стратегию оценки. См. Основные понятия — Профиль.
- Provider (провайдер)
- Шаблон конфигурации для регистрации модели. Содержит предзаполненные настройки API-контракта для конкретного поставщика (OpenAI, Claude и др.). 6 встроенных + custom. См. Основные понятия — Провайдер.
- ReColorAdv
- White-box-атака компьютерного зрения, изменяющая цветовое пространство изображения для обмана классификатора. Не добавляет шума, а перераспределяет цвета.
- Roleplay (ролевой сценарий)
- Техника Jailbreak Attack Suite, оборачивающая промпт в ролевой контекст. Модель просят «войти в роль», которая не имеет ограничений. В системе 9 ролевых техник: AI Avatar, DAN, Evil Character, Anime Persona, Expert Persona, Fictional Character, Future Reality, Game Master, Sci-Fi Setting. В Unified Pipeline используется как стадия типа
roleplay. См. Основные понятия — Атака. - Scan (сканирование)
- Процесс тестирования конкретной модели по конкретному профилю (сканирование по профилю) или одной выбранной атакой (атомарное сканирование). В UI отображается с одним из четырёх статусов: Запущен, Завершён, Отменён, Ошибка. См. Основные понятия — Сканирование.
- Severity (серьёзность)
- Уровень серьёзности уязвимости, определяемый по DREAD-оценке: Critical (9.0--10.0), High (7.0--8.9), Medium (4.0--6.9), Low (1.0--3.9), Info (0.0--0.9).
- SinIR (Structured Gaussian Noise)
- Hybrid-атака компьютерного зрения, добавляющая структурированный гауссовский шум к изображению. Простая, но эффективная техника для оценки базовой устойчивости модели.
- Simple Black-Box Attack
- Простая blackbox-атака компьютерного зрения методом случайного поиска в пространстве возмущений.
- TI (Translation-Invariant)
- Whitebox-атака компьютерного зрения, создающая adversarial-примеры, устойчивые к трансляционным (пространственным) преобразованиям изображения.
- Transformation (трансформация)
- Техника преобразования текста промпта перед отправкой модели. Используется для обхода защитных механизмов. 19 техник в 2 категориях: кодирование (10), обфускация (9). 9 ролевых техник реализованы как отдельная техника Jailbreak Attack Suite и могут использоваться как стадия Unified Pipeline. См. Основные понятия — Трансформация.
- TREMBA (Transfer-based Ensemble)
- White-box-атака компьютерного зрения, использующая трансферное обучение и ансамбль суррогатных моделей для генерации adversarial-примеров.
- UAP (Universal Adversarial Perturbation)
- White-box-атака компьютерного зрения, создающая единое универсальное возмущение, которое обманывает модель на множестве различных изображений.
- Ultrasonic Attack (ультразвуковая атака)
- ASR-атака, использующая ультразвуковые частоты (неслышимые для человека, но воспринимаемые микрофоном) для внедрения скрытых команд в аудиопоток.
- Unified Pipeline
- Многостадийный конвейер произвольных трансформаций промптов в составе Jailbreak Attack Suite. Позволяет комбинировать кодирования (10 техник), обфускации (9 техник) и ролевые сценарии (9 техник) в произвольном порядке. Поддерживает 3 режима композиции на этапе:
parallel,sequential,none. См. Основные понятия — Трансформация. - Vulnerability (уязвимость)
- Обнаруженная проблема безопасности модели, зафиксированная по результатам атаки. Содержит промпт, ответ модели, DREAD-оценку, вердикт Judge и связанные артефакты. См. Основные понятия — Уязвимость.
- Whitebox (белый ящик)
- Сценарий тестирования, при котором атакующий имеет полный доступ к внутренней структуре модели (весам, архитектуре, градиентам). Позволяет использовать более точные, но требующие вычислительных ресурсов атаки. Примеры: FGSM, PGD, C&W, DeepFool.
- ZOO (Zeroth Order Optimization)
- Hybrid-атака компьютерного зрения, оценивающая градиенты через конечные разности (без прямого доступа к модели). Точная, но вычислительно дорогая.