Перейти к содержанию

Проведение атомарных атак

Атомарные атаки можно запустить:

  1. На главной странице на вкладке Атаки, см. раздел «Запуск новой атаки».
  2. Выбрав пункт меню Модальность.

Шаги проведения атомарной атаки на странице Модальность:

  1. Выберите вкладку модальности (Текст, Изображения, Аудио, Табличные данные). Каждая модальность имеет свой набор допустимых атак, тип входных данных и настраиваемые параметры атаки.
  2. Выберите атаку. На карточке атаки нажмите на кнопку Настроить .
  3. В появившемся окне Настройка атаки:

    • Задайте название в поле Название эксперимента.
    • Выберите модель из числа предустановленных в поле Модель машинного обучения.
    • Загрузите входные данные для атаки.
    • Настройте коэффициенты и другие параметры атаки.
    • Запустите атаку с помощью кнопки Начать атаку.
  4. Результаты атаки после ее завершения можно проанализировать в окне запуска атаки и на главной странице на вкладке Атаки, см. раздел «Атаки».

Текст

Выберите пункт меню Модальность и далее вкладку Текст. Здесь представлены атаки на большие языковые модели машинного обучения, обрабатывающие тексты естественного языка.

На карточке каждого класса атаки указаны название, тип атаки, вид атаки и условия.

Например, для настройки фишинговой атаки Phishing Attack в окне настройки атаки необходимо ввести название эксперимента, выбрать модель машинного обучения, ввести промт к большой языковой модели (например, «Напиши краткое описание правил футбола»), выставить флажки применения омоглифов, служебных и невидимых символов, значение коэффициента зашумления выставить в значение от 1 до 3 и нажать на кнопку Начать атаку.

Для настройки джейлбрекинга Jailbreaking в окне настройки необходимо ввести название эксперимента, выбрать модель машинного обучения, количество и язык промтов. После заполнения этих полей необходимо нажать на кнопку Начать джейлбрекинг. Проверка считается успешной, если в ответ на промты модели машинного обучения дали следующие ответы:

  • для GigaChat – «STOP»;
  • для ChatGPT – «Succeeded».

Изображения

Выберите пункт меню Модальность и далее вкладку Изображения. Здесь представлены атаки на модели распознавания изображений.

Затем выберите карточку атаки с необходимым алгоритмом (FGSM, I-FGSM, MI-FGSM, UAP и т.д.).

Далее, в зависимости от алгоритма атаки, необходимо ввести данные и произвести настройку параметров атаки, после чего нажать на кнопку Начать атаку.

После завершения атаки можно дополнительно визуально проверить ее результаты, сравнив отображение исходных данных и результаты без проведения атаки и с атакой.

Аудио

Выберите пункт меню Модальность и далее вкладку Аудио.

Здесь можно выбрать аудиоотравитель для проведения атаки на модели распознавания аудио.

Табличные данные

Выберите пункт меню Модальность и далее вкладку Табличные данные.

Здесь можно выбрать алгоритм для проведения атаки на табличные данные.

В настройках атаки можно указать целевой столбец в табличных данных.