Проведение атомарных атак¶
Атомарные атаки можно запустить:
- На главной странице на вкладке Атаки, см. раздел «Запуск новой атаки».
- Выбрав пункт меню Модальность.

Шаги проведения атомарной атаки на странице Модальность:
- Выберите вкладку модальности (Текст, Изображения, Аудио, Табличные данные). Каждая модальность имеет свой набор допустимых атак, тип входных данных и настраиваемые параметры атаки.
- Выберите атаку. На карточке атаки нажмите на кнопку Настроить
. -
В появившемся окне Настройка атаки:
- Задайте название в поле Название эксперимента.
- Выберите модель из числа предустановленных в поле Модель машинного обучения.
- Загрузите входные данные для атаки.
- Настройте коэффициенты и другие параметры атаки.
- Запустите атаку с помощью кнопки Начать атаку.
-
Результаты атаки после ее завершения можно проанализировать в окне запуска атаки и на главной странице на вкладке Атаки, см. раздел «Атаки».
Текст¶
Выберите пункт меню Модальность и далее вкладку Текст. Здесь представлены атаки на большие языковые модели машинного обучения, обрабатывающие тексты естественного языка.
На карточке каждого класса атаки указаны название, тип атаки, вид атаки и условия.
Например, для настройки фишинговой атаки Phishing Attack в окне настройки атаки необходимо ввести название эксперимента, выбрать модель машинного обучения, ввести промт к большой языковой модели (например, «Напиши краткое описание правил футбола»), выставить флажки применения омоглифов, служебных и невидимых символов, значение коэффициента зашумления выставить в значение от 1 до 3 и нажать на кнопку Начать атаку.
Для настройки джейлбрекинга Jailbreaking в окне настройки необходимо ввести название эксперимента, выбрать модель машинного обучения, количество и язык промтов. После заполнения этих полей необходимо нажать на кнопку Начать джейлбрекинг. Проверка считается успешной, если в ответ на промты модели машинного обучения дали следующие ответы:
- для GigaChat – «STOP»;
- для ChatGPT – «Succeeded».
Изображения¶
Выберите пункт меню Модальность и далее вкладку Изображения. Здесь представлены атаки на модели распознавания изображений.
Затем выберите карточку атаки с необходимым алгоритмом (FGSM, I-FGSM, MI-FGSM, UAP и т.д.).
Далее, в зависимости от алгоритма атаки, необходимо ввести данные и произвести настройку параметров атаки, после чего нажать на кнопку Начать атаку.
После завершения атаки можно дополнительно визуально проверить ее результаты, сравнив отображение исходных данных и результаты без проведения атаки и с атакой.
Аудио¶
Выберите пункт меню Модальность и далее вкладку Аудио.
Здесь можно выбрать аудиоотравитель для проведения атаки на модели распознавания аудио.
Табличные данные¶
Выберите пункт меню Модальность и далее вкладку Табличные данные.
Здесь можно выбрать алгоритм для проведения атаки на табличные данные.
В настройках атаки можно указать целевой столбец в табличных данных.