Описание релизов¶

Релиз 2026.5.1 [Май 2026]¶

LLM Jailbreak¶

Новый сценарий атаки CAMO — добавлен метод проверки устойчивости языковой модели к замаскированным запросам. Промпт разбивается на фрагменты, а отдельные символы в чувствительных словах заменяются на маски — модель должна восстановить исходный смысл, чтобы ответить. Сценарий помогает выявить случаи, когда защитные механизмы обходятся за счёт визуального искажения текста. Настраивается в профиле сканирования.
Многошаговый диалог в атаке Crescendo — атака Crescendo переведена в полноценный диалоговый режим. Вместо набора независимых запросов система ведёт с моделью связную беседу из нескольких шагов, что точнее воспроизводит реальные сценарии постепенной эскалации со стороны злоумышленника. Это повышает достоверность оценки устойчивости модели к подобным манипуляциям. Существующие профили сканирования продолжают работать без изменений.

Управление моделями¶

Кастомный системный промпт для модели-судьи — для системных моделей с ролью «судья» появилась возможность задать собственный системный промпт. Это позволяет адаптировать критерии оценки ответов под специфику задачи или отрасли — например, ужесточить критерии для финансового или медицинского домена. Стандартизированный формат итогового вердикта при этом сохраняется.

Профили сканирования¶

Кастомные фразы-маркеры отказа для упрощённой стратегии Judge — при использовании упрощённой стратегии оценки ответов добавлена возможность указать собственный список фраз, которые система будет интерпретировать как отказ модели отвечать. Пользовательский список дополняет встроенный набор из 300+ фраз и повышает точность оценки в нишевых сценариях — например, при работе со специализированными доменами или редкими языками. Допускается до 200 фраз длиной до 500 символов каждая.

Релиз 2026.5.0 [Март 2026]¶

Мажорный релиз

Полная переработка архитектуры: переход от монолитного приложения к микросервисной платформе. Добавлены три модальности тестирования, новый пользовательский интерфейс и система реального времени.

Архитектура¶

Микросервисная архитектура — переход с монолитного Django-приложения на распределённый набор Docker-контейнеров.
Асинхронный обмен сообщениями — NATS JetStream с кластером из 3 нод для надёжной доставки сообщений.
Database-per-service — единая PostgreSQL 16 с изолированными схемами для каждого сервиса.
S3-совместимое хранилище — MinIO для артефактов (adversarial-изображения, аудиофайлы, логи).
Кеширование и очереди — Redis 7 для промежуточных данных и задач воркеров.
Аутентификация — Keycloak + Envoy Gateway для управления идентификацией и валидации JWT на edge.

Модальности тестирования¶

LLM Jailbreak — тестирование больших языковых моделей:
- 1 attack_type jailbreak с 19 attacker-техниками (plain, roleplay, encoding, obfuscation, pipeline, crescendo, breakfun, function_injection, paper_summary, doublespeak и набор taxonomy tactics).
- 916 встроенных промптов (789 EN + 127 RU).
- Многоходовые последовательности (Crescendo).
- Система Judge с тремя стратегиями (simple, llm, orchestrator из 6 детекторов).
CV Adversarial — тестирование моделей компьютерного зрения:
- 19 типов атаки (whitebox + blackbox + универсальные).
- FGSM, PGD, C&W, DeepFool, ZOO, One Pixel, TREMBA и др.
- Визуализация adversarial-изображений и метрики L2/SSIM/PSNR.
ASR Adversarial — тестирование моделей распознавания речи:
- 6 типов атак (5 blackbox: DABA, PIBA, Ultrasonic, JingleBack, PBSM + 1 whitebox: BIM).
- Бэкдор-атаки, ультразвуковое воздействие, градиентные методы.

Unified Transformation Framework¶

19 техник трансформации промптов: 10 кодирований + 9 обфускаций + интеграция 5 ролевых сценариев (DAN, AIM, Evil Confidant, Dude, Universal) как отдельной стадии.
Многоступенчатые пайплайны — произвольные цепочки трансформаций с тремя режимами композиции (parallel, sequential, none).
Экспоненциальный рост вариантов — один промпт может генерировать десятки уникальных вариантов атаки.

DREAD-скоринг¶

Методология DREAD для оценки AI/ML-уязвимостей (Damage, Reproducibility, Exploitability, Affected users, Discoverability).
Шкала 0--10 с пятью уровнями серьёзности: критический, высокий, средний, низкий, информационный.
Базовые оценки по типам атак с корректировкой по результату Judge.
Модификаторы для Crescendo-атак (глубина эскалации влияет на оценку).

Пользовательский интерфейс¶

Angular 21 с TaigaUI 4.70 — современный адаптивный интерфейс.
NestJS BFF (UI Gateway) — Backend-for-Frontend прослойка с автоматической конвертацией camelCase/snake_case.
WebSocket — обновления в реальном времени при выполнении сканирований.
Дашборд — обзорная страница с виджетами.
Мастер запуска — пошаговый запуск сканирований.

Управление моделями¶

6 встроенных провайдеров — OpenAI, Claude, DeepSeek, GigaChat, YandexGPT, HuggingFace + custom.
Шаблоны API-контрактов — автоматическое заполнение при выборе провайдера.
Probe-диагностика — детальная проверка подключения к модели с диагностикой ошибок.
Типы моделей — LLM, CV, SPEECH, MLLM, RS, TABULAR.

Профили сканирования¶

JSON Schema валидация — автоматическая проверка конфигурации атак.
Каталог атак — 26 типов с описаниями, схемами, примерами и значениями по умолчанию.
Конфигурация Judge — выбор стратегии оценки (simple, llm, orchestrator) на уровне профиля.

Управление ассетами¶

Загрузка изображений — для CV-атак (MinIO, бакет cv-images).
Загрузка аудио — для ASR-атак (MinIO, бакет audio-samples).
Дедупликация — автоматическое исключение повторных загрузок.
Presigned URL — безопасный доступ к артефактам через временные ссылки.

Оркестрация¶

Машина состояний — 9 состояний сканирования с контролем переходов.
Параллельное выполнение — несколько атак в рамках одного сканирования выполняются параллельно.
Отмена сканирования — возможность отмены выполняющегося сканирования.

Сервисы и инфраструктура¶

PostgreSQL 16 — единая БД с изолированными схемами.
NATS JetStream — потоки ATTACKS, SCANS, RESULTS, ARTIFACTS, VULNERABILITIES, NOTIFICATIONS с настраиваемым retention.
Redis 7 — очереди задач для воркеров (Preparator, Attacker, Judge, Reporter).
MinIO — S3-совместимое хранилище артефактов.
Keycloak + Envoy Gateway — SSO, управление пользователями и валидация JWT.
Alembic — миграции БД для Python-сервисов; Prisma — для NestJS-сервисов (License Center).

Релиз 25.4.2 [19.12.2025]¶

Новая функциональность

В административной панели добавлено гибкое управление пользователями, группами и ролями.
В административной панели добавлены настройки уведомлений в режиме реального времени при проведении анализа защищённости моделей ИИ:
- Автоматическая отправка и получение уведомлений о появлении новой уязвимости или её устранении.
- Возможность рассылки уведомлений на почтовый ящик пользователей.
- Гибкая настройка автоматических оповещений для ключевых событий системы.
На странице «Модели машинного обучения» добавлено отображение доступности модели и её готовности к работе со сканером.
Добавлена возможность сканировать импортированные Docker-модели при проведении полных сканирований.
Добавлена поддержка кастомных шаблонов отчётов о результатах сканирования в формате DOCX.
Добавлена поддержка протокола HTTPS при обращении к стороннему серверу с хранилищем моделей.

Релиз 25.4.1 [14.11.2025]¶

Новые возможности

Архитектура и безопасность
- Миграция с SQLite на PostgreSQL.
- Реализация ролевой модели доступа.
- Добавление административной панели.
- Поддержка air-gap bundle-установки.
Интерфейс и удобство
- Полностью переработан пользовательский интерфейс сканера.
- Запуск сканирований прямо с главной страницы.
- Настройка параметров атак через интерфейс.
- Визуализация хода сканирований с указанием уровня рисков.
Функциональность
- Поддержка до 5 параллельных сканирований.
- Добавлена возможность скачивания отчёта о результатах сканирования в различных форматах: TXT, PDF, DOCX, JSON, CSV.
- Детальное логирование действий пользователей.

Улучшения существующего функционала

Модули тестирования
- Доработаны тесты для текстовых данных.
- Улучшены методы тестирования изображений.
- Расширены возможности акустических проверок.
- Усилены тесты на джейлбрекинг.
- Оптимизирована «Полная проверка» для онлайн и офлайн-моделей.