Данные Разработка Безопасность Инфраструктура Курсы и книги

NIST: заранее настроенные правила не могут защитить ИИ от враждебных запросов

CITNews

09.06.2026

Национальный институт стандартов и технологий США представил работу о том, почему статические защитные правила не могут закрыть все способы обхода ИИ-систем. Вывод практический: безопасность ИИ должна быть постоянным процессом — с мониторингом, проверками на обход защиты, регулярными обновлениями и готовностью к инцидентам.

Национальный институт стандартов и технологий США (NIST) представил работу своего старшего научного сотрудника Апостола Василева (Apostol Vassilev), опубликованную в журнале IEEE Security & Privacy. В статье утверждается, что конечный набор защитных правил для ИИ-системы не может быть устойчивым ко всем adversarial prompts — враждебным или специально подобранным запросам, которые заставляют модель обходить установленные ограничения.

Аргументация Василева опирается на идеи теоремы Гёделя о неполноте. В контексте ИИ это означает, что разработчик может добавлять новые правила, фильтры и проверки, но не может доказать, что конечная система ограничений перекроет все возможные способы обхода. При этом NIST отдельно отмечает, что работа не дает атакующим практического рецепта для поиска новых jailbreak-запросов.

Практический вывод NIST состоит в отказе от подхода «один раз настроили guardrails — и считаем систему защищенной». Вместо этого предлагается эксплуатационная модель, в которой специалисты регулярно проверяют систему на новые способы обхода защиты, защитные механизмы постоянно обновляются, а архитектура внедрения ИИ заранее учитывает неизбежность инцидентов и ограничивает ущерб в случае успешной атаки.

Такой подход особенно важен для компаний, которые используют большие языковые модели в продуктах, внутренних инструментах, службах поддержки, разработке ПО и обработке данных. По сути, NIST описывает безопасность ИИ как процесс, близкий к управлению уязвимостями и zero-day-рисками в традиционном программном обеспечении. Но у ИИ есть дополнительная сложность: входом для модели служит естественный язык, а значит, пространство возможных обходов становится значительно шире.

Работа опубликована под названием “Robust AI Security and Alignment: A Sisyphean Endeavor?” в журнале IEEE Security & Privacy. Автор — Apostol Vassilev, DOI: 10.1109/MSEC.2026.3678214.

Источник: nist.gov

Новости IT

24 июня 2026

AWS вывела EC2 G7 на GPU NVIDIA Blackwell и включила cuVS в OpenSearch Serverless

23 июня 2026

Google Home начал использовать одежду для распознавания людей на камерах

23 июня 2026

Superhuman купит разработчика AI-детектора GPTZero

23 июня 2026

Anthropic запустила Claude Tag — командного AI-агента для Slack

23 июня 2026

Microsoft сделала общедоступным Azure Copilot Observability Agent