Описание релизов¶
Релиз 2026.5.1 [Май 2026]¶
LLM Jailbreak¶
-
Новый сценарий атаки CAMO — добавлен метод проверки устойчивости языковой модели к замаскированным запросам. Промпт разбивается на фрагменты, а отдельные символы в чувствительных словах заменяются на маски — модель должна восстановить исходный смысл, чтобы ответить. Сценарий помогает выявить случаи, когда защитные механизмы обходятся за счёт визуального искажения текста. Настраивается в профиле сканирования.
-
Многошаговый диалог в атаке Crescendo — атака Crescendo переведена в полноценный диалоговый режим. Вместо набора независимых запросов система ведёт с моделью связную беседу из нескольких шагов, что точнее воспроизводит реальные сценарии постепенной эскалации со стороны злоумышленника. Это повышает достоверность оценки устойчивости модели к подобным манипуляциям. Существующие профили сканирования продолжают работать без изменений.
Управление моделями¶
- Кастомный системный промпт для модели-судьи — для системных моделей с ролью «судья» появилась возможность задать собственный системный промпт. Это позволяет адаптировать критерии оценки ответов под специфику задачи или отрасли — например, ужесточить критерии для финансового или медицинского домена. Стандартизированный формат итогового вердикта при этом сохраняется.
Профили сканирования¶
- Кастомные фразы-маркеры отказа для упрощённой стратегии Judge — при использовании упрощённой стратегии оценки ответов добавлена возможность указать собственный список фраз, которые система будет интерпретировать как отказ модели отвечать. Пользовательский список дополняет встроенный набор из 300+ фраз и повышает точность оценки в нишевых сценариях — например, при работе со специализированными доменами или редкими языками. Допускается до 200 фраз длиной до 500 символов каждая.
Релиз 2026.5.0 [Март 2026]¶
Мажорный релиз
Полная переработка архитектуры: переход от монолитного приложения к микросервисной платформе. Добавлены три модальности тестирования, новый пользовательский интерфейс и система реального времени.
Архитектура¶
- Микросервисная архитектура — переход с монолитного Django-приложения на распределённый набор Docker-контейнеров.
- Асинхронный обмен сообщениями — NATS JetStream с кластером из 3 нод для надёжной доставки сообщений.
- Database-per-service — единая PostgreSQL 16 с изолированными схемами для каждого сервиса.
- S3-совместимое хранилище — MinIO для артефактов (adversarial-изображения, аудиофайлы, логи).
- Кеширование и очереди — Redis 7 для промежуточных данных и задач воркеров.
- Аутентификация — Keycloak + Envoy Gateway для управления идентификацией и валидации JWT на edge.
Модальности тестирования¶
- LLM Jailbreak — тестирование больших языковых моделей:
- 1 attack_type
jailbreakс 19 attacker-техниками (plain, roleplay, encoding, obfuscation, pipeline, crescendo, breakfun, function_injection, paper_summary, doublespeak и набор taxonomy tactics). - 916 встроенных промптов (789 EN + 127 RU).
- Многоходовые последовательности (Crescendo).
- Система Judge с тремя стратегиями (simple, llm, orchestrator из 6 детекторов).
- 1 attack_type
- CV Adversarial — тестирование моделей компьютерного зрения:
- 19 типов атаки (whitebox + blackbox + универсальные).
- FGSM, PGD, C&W, DeepFool, ZOO, One Pixel, TREMBA и др.
- Визуализация adversarial-изображений и метрики L2/SSIM/PSNR.
- ASR Adversarial — тестирование моделей распознавания речи:
- 6 типов атак (5 blackbox: DABA, PIBA, Ultrasonic, JingleBack, PBSM + 1 whitebox: BIM).
- Бэкдор-атаки, ультразвуковое воздействие, градиентные методы.
Unified Transformation Framework¶
- 19 техник трансформации промптов: 10 кодирований + 9 обфускаций + интеграция 5 ролевых сценариев (DAN, AIM, Evil Confidant, Dude, Universal) как отдельной стадии.
- Многоступенчатые пайплайны — произвольные цепочки трансформаций с тремя режимами композиции (parallel, sequential, none).
- Экспоненциальный рост вариантов — один промпт может генерировать десятки уникальных вариантов атаки.
DREAD-скоринг¶
- Методология DREAD для оценки AI/ML-уязвимостей (Damage, Reproducibility, Exploitability, Affected users, Discoverability).
- Шкала 0--10 с пятью уровнями серьёзности: критический, высокий, средний, низкий, информационный.
- Базовые оценки по типам атак с корректировкой по результату Judge.
- Модификаторы для Crescendo-атак (глубина эскалации влияет на оценку).
Пользовательский интерфейс¶
- Angular 21 с TaigaUI 4.70 — современный адаптивный интерфейс.
- NestJS BFF (UI Gateway) — Backend-for-Frontend прослойка с автоматической конвертацией camelCase/snake_case.
- WebSocket — обновления в реальном времени при выполнении сканирований.
- Дашборд — обзорная страница с виджетами.
- Мастер запуска — пошаговый запуск сканирований.
Управление моделями¶
- 6 встроенных провайдеров — OpenAI, Claude, DeepSeek, GigaChat, YandexGPT, HuggingFace + custom.
- Шаблоны API-контрактов — автоматическое заполнение при выборе провайдера.
- Probe-диагностика — детальная проверка подключения к модели с диагностикой ошибок.
- Типы моделей — LLM, CV, SPEECH, MLLM, RS, TABULAR.
Профили сканирования¶
- JSON Schema валидация — автоматическая проверка конфигурации атак.
- Каталог атак — 26 типов с описаниями, схемами, примерами и значениями по умолчанию.
- Конфигурация Judge — выбор стратегии оценки (simple, llm, orchestrator) на уровне профиля.
Управление ассетами¶
- Загрузка изображений — для CV-атак (MinIO, бакет
cv-images). - Загрузка аудио — для ASR-атак (MinIO, бакет
audio-samples). - Дедупликация — автоматическое исключение повторных загрузок.
- Presigned URL — безопасный доступ к артефактам через временные ссылки.
Оркестрация¶
- Машина состояний — 9 состояний сканирования с контролем переходов.
- Параллельное выполнение — несколько атак в рамках одного сканирования выполняются параллельно.
- Отмена сканирования — возможность отмены выполняющегося сканирования.
Сервисы и инфраструктура¶
- PostgreSQL 16 — единая БД с изолированными схемами.
- NATS JetStream — потоки ATTACKS, SCANS, RESULTS, ARTIFACTS, VULNERABILITIES, NOTIFICATIONS с настраиваемым retention.
- Redis 7 — очереди задач для воркеров (Preparator, Attacker, Judge, Reporter).
- MinIO — S3-совместимое хранилище артефактов.
- Keycloak + Envoy Gateway — SSO, управление пользователями и валидация JWT.
- Alembic — миграции БД для Python-сервисов; Prisma — для NestJS-сервисов (License Center).
Релиз 25.4.2 [19.12.2025]¶
Новая функциональность
- В административной панели добавлено гибкое управление пользователями, группами и ролями.
- В административной панели добавлены настройки уведомлений в режиме реального времени при проведении анализа защищённости моделей ИИ:
- Автоматическая отправка и получение уведомлений о появлении новой уязвимости или её устранении.
- Возможность рассылки уведомлений на почтовый ящик пользователей.
- Гибкая настройка автоматических оповещений для ключевых событий системы.
- На странице «Модели машинного обучения» добавлено отображение доступности модели и её готовности к работе со сканером.
- Добавлена возможность сканировать импортированные Docker-модели при проведении полных сканирований.
- Добавлена поддержка кастомных шаблонов отчётов о результатах сканирования в формате DOCX.
- Добавлена поддержка протокола HTTPS при обращении к стороннему серверу с хранилищем моделей.
Релиз 25.4.1 [14.11.2025]¶
Новые возможности
-
Архитектура и безопасность
- Миграция с SQLite на PostgreSQL.
- Реализация ролевой модели доступа.
- Добавление административной панели.
- Поддержка air-gap bundle-установки.
-
Интерфейс и удобство
- Полностью переработан пользовательский интерфейс сканера.
- Запуск сканирований прямо с главной страницы.
- Настройка параметров атак через интерфейс.
- Визуализация хода сканирований с указанием уровня рисков.
-
Функциональность
- Поддержка до 5 параллельных сканирований.
- Добавлена возможность скачивания отчёта о результатах сканирования в различных форматах: TXT, PDF, DOCX, JSON, CSV.
- Детальное логирование действий пользователей.
Улучшения существующего функционала
- Модули тестирования
- Доработаны тесты для текстовых данных.
- Улучшены методы тестирования изображений.
- Расширены возможности акустических проверок.
- Усилены тесты на джейлбрекинг.
- Оптимизирована «Полная проверка» для онлайн и офлайн-моделей.