09.06.2026
Национальный институт стандартов и технологий США представил работу о том, почему статические защитные правила не могут закрыть все способы обхода ИИ-систем. Вывод практический: безопасность ИИ должна быть постоянным процессом — с мониторингом, проверками на обход защиты, регулярными обновлениями и готовностью к инцидентам.
Национальный институт стандартов и технологий США (NIST) представил работу своего старшего научного сотрудника Апостола Василева (Apostol Vassilev), опубликованную в журнале IEEE Security & Privacy. В статье утверждается, что конечный набор защитных правил для ИИ-системы не может быть устойчивым ко всем adversarial prompts — враждебным или специально подобранным запросам, которые заставляют модель обходить установленные ограничения.
Аргументация Василева опирается на идеи теоремы Гёделя о неполноте. В контексте ИИ это означает, что разработчик может добавлять новые правила, фильтры и проверки, но не может доказать, что конечная система ограничений перекроет все возможные способы обхода. При этом NIST отдельно отмечает, что работа не дает атакующим практического рецепта для поиска новых jailbreak-запросов.
Практический вывод NIST состоит в отказе от подхода «один раз настроили guardrails — и считаем систему защищенной». Вместо этого предлагается эксплуатационная модель, в которой специалисты регулярно проверяют систему на новые способы обхода защиты, защитные механизмы постоянно обновляются, а архитектура внедрения ИИ заранее учитывает неизбежность инцидентов и ограничивает ущерб в случае успешной атаки.
Такой подход особенно важен для компаний, которые используют большие языковые модели в продуктах, внутренних инструментах, службах поддержки, разработке ПО и обработке данных. По сути, NIST описывает безопасность ИИ как процесс, близкий к управлению уязвимостями и zero-day-рисками в традиционном программном обеспечении. Но у ИИ есть дополнительная сложность: входом для модели служит естественный язык, а значит, пространство возможных обходов становится значительно шире.
Работа опубликована под названием “Robust AI Security and Alignment: A Sisyphean Endeavor?” в журнале IEEE Security & Privacy. Автор — Apostol Vassilev, DOI: 10.1109/MSEC.2026.3678214.
Источник: nist.gov