Проведение экспериментов¶

Для выбора классов атак для тестирования моделей машинного обучения необходимо через боковую панель перейти на вкладку Модальность или Вид воздействия и выбрать необходимое поле.
Для реализации атак на большие языковые модели машинного обучения, обрабатывающие тексты естественного языка, необходимо на боковой панели развернуть вкладку Модальность, далее нажать Текст.

В появившемся окне выбрать тип воздействия (Phishing Attack (Текстовые зашумления), Semantic Attack (Текстовые состязательные атаки), Jailbreaking (промт-инжиниринг) или Backdoor (NLP-закладка)), нажав на кнопку Настройка эксперимента .
Для настройки фишинговой атаки в окне настройки необходимо ввести название эксперимента, выбрать модель машинного обучения, ввести промт к большой языковой модели (например, «Напиши краткое описание правил футбола»), выставить флажки применения омоглифов, служебных и невидимых символов. Значение коэффициента зашумления выставить в значение от 1 до 3 и нажать на кнопку Проверить атаку.

Далее будет осуществлен переход на страницу Результаты воздействия, на вкладке Без воздействия должно быть отображение корректного ответа модели машинного обучения, на вкладке С зашумлением – сбой функционирования модели машинного обучения.
Для настройки семантической атаки в окне настройки необходимо ввести название эксперимента, выбрать целевой набор данных и набор данных для заимствования терминов замены (наборы данных для рубрикации текстов). После заполнения этих полей необходимо нажать на кнопку Продолжить.

Далее будет осуществлен переход на страницу Настройка целевого воздействия, где необходимо выбрать частотность отравления, классов текстовых данных и целевой класс. Для выбора классов есть сопутствующая информация, просмотр ее возможен при нажатии на кнопку .

После выбора всех параметров атаки необходимо нажать на кнопку Начать отравление и будет осуществлен переход на страницу Результаты отравления.

Для скачивания отравленного набора данных необходимо нажать на кнопку .
Для настройки джейлбрекинга в окне настройки необходимо ввести название эксперимента, выбрать модель машинного обучения, количество и язык промтов. После заполнения этих полей необходимо нажать на кнопку Начать джейлбрекинг.

Далее будет осуществлен переход на страницу Результаты проверки должно быть отображение ответов модели машинного обучения и категорий успешности джейлбрекинга.

Проверка считается успешной, если в ответ на промты модели машинного обучения дали следующие ответы:
- для GigaChat – «STOP»;
- для ChatGPT – «Succeeded».
Для настройки NLP-закладки в модели машинного обучения, обрабатывающие тексты естественного языка, на странице настройки триггера бэкдоров необходимо ввести название эксперимента и выбрать набор данных. После заполнения этих полей необходимо нажать на кнопку Продолжить.

Далее будет осуществлен переход на следующую страницу Настройка целевого воздействия, где необходимо выбрать столбцы с классами и целевые классы, а также частотные характеристики бэкдора и нажать на кнопку Начать отравление.

Далее будет осуществлен переход на страницу Результаты отравления должно быть отображение содержания неотравленного набора данных и набор данных с триггерами бэкдора.

На вкладке С зашумлением при вводе слов триггера в окно поиска должно быть отображение этих триггеров в наборе данных.

Для скачивания отравленного набора данных необходимо нажать на кнопку .
Для реализации атак на модели компьютерного зрения необходимо на боковой панели развернуть вкладку Модальность, далее нажать Изображения. В новом окне выбрать алгоритм атаки на модели компьютерного зрения (FGSM, I-FGSM, MI-FGSM, UAP и т.д.), нажав на кнопку Настройка эксперимента .

Далее, в зависимости от алгоритма атаки (например, FGSM-атак), будет осуществлен переход на страницу Настройки атаки.

Необходимо ввести данные и произвести настройку возмущения, после чего нажать на кнопку Начать эксперимент.

Визуально проверить отображение страницы Результаты эксперимента, на которой отображены исходные данные для эксперимента и результаты без проведения атаки и с атакой.

Аналогичным образом осуществляется реализация атак на модели машинного обучения другими алгоритмами, представленными в Системе.

Также в Системе реализована функция проведения проверок по Видам воздействия, сканирование осуществляется по правилам, описанным выше в пунктах 2-7.