Перейти к содержанию

Описание релизов

Релиз 2026.5.1 [Май 2026]

LLM Jailbreak

  • Новый сценарий атаки CAMO — добавлен метод проверки устойчивости языковой модели к замаскированным запросам. Промпт разбивается на фрагменты, а отдельные символы в чувствительных словах заменяются на маски — модель должна восстановить исходный смысл, чтобы ответить. Сценарий помогает выявить случаи, когда защитные механизмы обходятся за счёт визуального искажения текста. Настраивается в профиле сканирования.

  • Многошаговый диалог в атаке Crescendo — атака Crescendo переведена в полноценный диалоговый режим. Вместо набора независимых запросов система ведёт с моделью связную беседу из нескольких шагов, что точнее воспроизводит реальные сценарии постепенной эскалации со стороны злоумышленника. Это повышает достоверность оценки устойчивости модели к подобным манипуляциям. Существующие профили сканирования продолжают работать без изменений.

Управление моделями

  • Кастомный системный промпт для модели-судьи — для системных моделей с ролью «судья» появилась возможность задать собственный системный промпт. Это позволяет адаптировать критерии оценки ответов под специфику задачи или отрасли — например, ужесточить критерии для финансового или медицинского домена. Стандартизированный формат итогового вердикта при этом сохраняется.

Профили сканирования

  • Кастомные фразы-маркеры отказа для упрощённой стратегии Judge — при использовании упрощённой стратегии оценки ответов добавлена возможность указать собственный список фраз, которые система будет интерпретировать как отказ модели отвечать. Пользовательский список дополняет встроенный набор из 300+ фраз и повышает точность оценки в нишевых сценариях — например, при работе со специализированными доменами или редкими языками. Допускается до 200 фраз длиной до 500 символов каждая.

Релиз 2026.5.0 [Март 2026]

Мажорный релиз

Полная переработка архитектуры: переход от монолитного приложения к микросервисной платформе. Добавлены три модальности тестирования, новый пользовательский интерфейс и система реального времени.

Архитектура

  • Микросервисная архитектура — переход с монолитного Django-приложения на распределённый набор Docker-контейнеров.
  • Асинхронный обмен сообщениями — NATS JetStream с кластером из 3 нод для надёжной доставки сообщений.
  • Database-per-service — единая PostgreSQL 16 с изолированными схемами для каждого сервиса.
  • S3-совместимое хранилище — MinIO для артефактов (adversarial-изображения, аудиофайлы, логи).
  • Кеширование и очереди — Redis 7 для промежуточных данных и задач воркеров.
  • Аутентификация — Keycloak + Envoy Gateway для управления идентификацией и валидации JWT на edge.

Модальности тестирования

  • LLM Jailbreak — тестирование больших языковых моделей:
    • 1 attack_type jailbreak с 19 attacker-техниками (plain, roleplay, encoding, obfuscation, pipeline, crescendo, breakfun, function_injection, paper_summary, doublespeak и набор taxonomy tactics).
    • 916 встроенных промптов (789 EN + 127 RU).
    • Многоходовые последовательности (Crescendo).
    • Система Judge с тремя стратегиями (simple, llm, orchestrator из 6 детекторов).
  • CV Adversarial — тестирование моделей компьютерного зрения:
    • 19 типов атаки (whitebox + blackbox + универсальные).
    • FGSM, PGD, C&W, DeepFool, ZOO, One Pixel, TREMBA и др.
    • Визуализация adversarial-изображений и метрики L2/SSIM/PSNR.
  • ASR Adversarial — тестирование моделей распознавания речи:
    • 6 типов атак (5 blackbox: DABA, PIBA, Ultrasonic, JingleBack, PBSM + 1 whitebox: BIM).
    • Бэкдор-атаки, ультразвуковое воздействие, градиентные методы.

Unified Transformation Framework

  • 19 техник трансформации промптов: 10 кодирований + 9 обфускаций + интеграция 5 ролевых сценариев (DAN, AIM, Evil Confidant, Dude, Universal) как отдельной стадии.
  • Многоступенчатые пайплайны — произвольные цепочки трансформаций с тремя режимами композиции (parallel, sequential, none).
  • Экспоненциальный рост вариантов — один промпт может генерировать десятки уникальных вариантов атаки.

DREAD-скоринг

  • Методология DREAD для оценки AI/ML-уязвимостей (Damage, Reproducibility, Exploitability, Affected users, Discoverability).
  • Шкала 0--10 с пятью уровнями серьёзности: критический, высокий, средний, низкий, информационный.
  • Базовые оценки по типам атак с корректировкой по результату Judge.
  • Модификаторы для Crescendo-атак (глубина эскалации влияет на оценку).

Пользовательский интерфейс

  • Angular 21 с TaigaUI 4.70 — современный адаптивный интерфейс.
  • NestJS BFF (UI Gateway) — Backend-for-Frontend прослойка с автоматической конвертацией camelCase/snake_case.
  • WebSocket — обновления в реальном времени при выполнении сканирований.
  • Дашборд — обзорная страница с виджетами.
  • Мастер запуска — пошаговый запуск сканирований.

Управление моделями

  • 6 встроенных провайдеров — OpenAI, Claude, DeepSeek, GigaChat, YandexGPT, HuggingFace + custom.
  • Шаблоны API-контрактов — автоматическое заполнение при выборе провайдера.
  • Probe-диагностика — детальная проверка подключения к модели с диагностикой ошибок.
  • Типы моделей — LLM, CV, SPEECH, MLLM, RS, TABULAR.

Профили сканирования

  • JSON Schema валидация — автоматическая проверка конфигурации атак.
  • Каталог атак — 26 типов с описаниями, схемами, примерами и значениями по умолчанию.
  • Конфигурация Judge — выбор стратегии оценки (simple, llm, orchestrator) на уровне профиля.

Управление ассетами

  • Загрузка изображений — для CV-атак (MinIO, бакет cv-images).
  • Загрузка аудио — для ASR-атак (MinIO, бакет audio-samples).
  • Дедупликация — автоматическое исключение повторных загрузок.
  • Presigned URL — безопасный доступ к артефактам через временные ссылки.

Оркестрация

  • Машина состояний — 9 состояний сканирования с контролем переходов.
  • Параллельное выполнение — несколько атак в рамках одного сканирования выполняются параллельно.
  • Отмена сканирования — возможность отмены выполняющегося сканирования.

Сервисы и инфраструктура

  • PostgreSQL 16 — единая БД с изолированными схемами.
  • NATS JetStream — потоки ATTACKS, SCANS, RESULTS, ARTIFACTS, VULNERABILITIES, NOTIFICATIONS с настраиваемым retention.
  • Redis 7 — очереди задач для воркеров (Preparator, Attacker, Judge, Reporter).
  • MinIO — S3-совместимое хранилище артефактов.
  • Keycloak + Envoy Gateway — SSO, управление пользователями и валидация JWT.
  • Alembic — миграции БД для Python-сервисов; Prisma — для NestJS-сервисов (License Center).

Релиз 25.4.2 [19.12.2025]

Новая функциональность

  • В административной панели добавлено гибкое управление пользователями, группами и ролями.
  • В административной панели добавлены настройки уведомлений в режиме реального времени при проведении анализа защищённости моделей ИИ:
    • Автоматическая отправка и получение уведомлений о появлении новой уязвимости или её устранении.
    • Возможность рассылки уведомлений на почтовый ящик пользователей.
    • Гибкая настройка автоматических оповещений для ключевых событий системы.
  • На странице «Модели машинного обучения» добавлено отображение доступности модели и её готовности к работе со сканером.
  • Добавлена возможность сканировать импортированные Docker-модели при проведении полных сканирований.
  • Добавлена поддержка кастомных шаблонов отчётов о результатах сканирования в формате DOCX.
  • Добавлена поддержка протокола HTTPS при обращении к стороннему серверу с хранилищем моделей.

Релиз 25.4.1 [14.11.2025]

Новые возможности

  • Архитектура и безопасность

    • Миграция с SQLite на PostgreSQL.
    • Реализация ролевой модели доступа.
    • Добавление административной панели.
    • Поддержка air-gap bundle-установки.
  • Интерфейс и удобство

    • Полностью переработан пользовательский интерфейс сканера.
    • Запуск сканирований прямо с главной страницы.
    • Настройка параметров атак через интерфейс.
    • Визуализация хода сканирований с указанием уровня рисков.
  • Функциональность

    • Поддержка до 5 параллельных сканирований.
    • Добавлена возможность скачивания отчёта о результатах сканирования в различных форматах: TXT, PDF, DOCX, JSON, CSV.
    • Детальное логирование действий пользователей.

Улучшения существующего функционала

  • Модули тестирования
    • Доработаны тесты для текстовых данных.
    • Улучшены методы тестирования изображений.
    • Расширены возможности акустических проверок.
    • Усилены тесты на джейлбрекинг.
    • Оптимизирована «Полная проверка» для онлайн и офлайн-моделей.