Атомарные атаки и полные сканирования¶
Система поддерживает два типа сканирований: атомарные атаки (эксперименты) и полные сканирования (чек-апы).
Отличия атомарной атаки от полного сканирования (чек-апа):
- при атомарной атаке выполняется только один тип воздействия на модель;
- при атомарной атаке не рассчитываются показатели DREAD;
- при атомарной атаке не формируется полный отчет;
- сканирование (полный чек-ап модели) включает в себя комплексный запуск всех релевантных атомарных атак по заданной модальности, с последующей DREAD-оценкой и генерацией полного отчета по сканированию.
Атомарные атаки¶
Эксперименты можно запустить на главной странице в секции Атаки и посмотреть на их результаты в секции Эксперименты.
Также атомарные атаки представлены через пункты бокового меню Модальность и Вид воздействия.
Каждая модальность (Текст или Изображения) и вид воздействия (Уклонения, Отравления, Джейлбрейкинг) имеет свой набор допустимых атак. Примеры:
- FGSM-атака на изображение приводит к подмене классификации визуального образа.
- Джейлбрейк-атака на LLM-модель выявляет её восприимчивость к запрещённым инструкциям.
Шаги проведения эксперимента:
- Выбор модальности.
- Выбор атаки.
- Выбор модели из числа предустановленных.
- Загрузка входных данных для атаки.
- Настройка коэффициента возмущения эксперимента.
- Запуск эксперимента.
- Анализ результатов.
- Для изображений: сравнение классификации "до/после" атаки.
- Для текста: проверка, прошла ли атака (например, ответ на вредоносный промт).
Полные сканирования¶
Для проведения полного сканирования выберите в левом боковом меню пункт Полный чек-ап, и далее один из подпунктов Модели МО, Docker или По IP в зависимости от способа подключения модели:
- Docker. Используется, когда модель развёрнута в изолированной среде («песочнице»). Требуется подготовить описание API и «обертку», которая позволит обращаться к модели по локальному адресу.
- По IP. Более простой способ, достаточно указать внешний IP-адрес модели.
Шаги проведения полного сканирования:
- Выбор модели через ее IP-адрес.
- Выбор модальности (например, для работы с аудио – «распознавание и синтез речи»).
- Загрузка входных данных для атаки (например, текстовый файл api.txt, файлы формата .wav, .jpg).
- Выбор профиля сканирования (AppSecAI или AppSecAI_AUDIO, который включает в себя этап отравления входного аудио и оценку реакции модели).
- Запуск сканирования (время сканирования зависит от модальности: примерно 1 минута для аудио, мультимодальное сканирование может занять до 10 минут).
- Анализ результатов, включая оценку DREAD и суммарную оценку риска.