Перейти к содержанию

Атомарные атаки и полные сканирования

Система поддерживает два типа сканирований: атомарные атаки (эксперименты) и полные сканирования (чек-апы).

Отличия атомарной атаки от полного сканирования (чек-апа):

  • при атомарной атаке выполняется только один тип воздействия на модель;
  • при атомарной атаке не рассчитываются показатели DREAD;
  • при атомарной атаке не формируется полный отчет;
  • сканирование (полный чек-ап модели) включает в себя комплексный запуск всех релевантных атомарных атак по заданной модальности, с последующей DREAD-оценкой и генерацией полного отчета по сканированию.

Атомарные атаки

Эксперименты можно запустить на главной странице в секции Атаки и посмотреть на их результаты в секции Эксперименты.

Также атомарные атаки представлены через пункты бокового меню Модальность и Вид воздействия.

Каждая модальность (Текст или Изображения) и вид воздействия (Уклонения, Отравления, Джейлбрейкинг) имеет свой набор допустимых атак. Примеры:

  • FGSM-атака на изображение приводит к подмене классификации визуального образа.
  • Джейлбрейк-атака на LLM-модель выявляет её восприимчивость к запрещённым инструкциям.

Шаги проведения эксперимента:

  1. Выбор модальности.
  2. Выбор атаки.
  3. Выбор модели из числа предустановленных.
  4. Загрузка входных данных для атаки.
  5. Настройка коэффициента возмущения эксперимента.
  6. Запуск эксперимента.
  7. Анализ результатов.
    • Для изображений: сравнение классификации "до/после" атаки.
    • Для текста: проверка, прошла ли атака (например, ответ на вредоносный промт).

Полные сканирования

Для проведения полного сканирования выберите в левом боковом меню пункт Полный чек-ап, и далее один из подпунктов Модели МО, Docker или По IP в зависимости от способа подключения модели:

  1. Docker. Используется, когда модель развёрнута в изолированной среде («песочнице»). Требуется подготовить описание API и «обертку», которая позволит обращаться к модели по локальному адресу.
  2. По IP. Более простой способ, достаточно указать внешний IP-адрес модели.

Шаги проведения полного сканирования:

  1. Выбор модели через ее IP-адрес.
  2. Выбор модальности (например, для работы с аудио – «распознавание и синтез речи»).
  3. Загрузка входных данных для атаки (например, текстовый файл api.txt, файлы формата .wav, .jpg).
  4. Выбор профиля сканирования (AppSecAI или AppSecAI_AUDIO, который включает в себя этап отравления входного аудио и оценку реакции модели).
  5. Запуск сканирования (время сканирования зависит от модальности: примерно 1 минута для аудио, мультимодальное сканирование может занять до 10 минут).
  6. Анализ результатов, включая оценку DREAD и суммарную оценку риска.