18.06.2026
Google DeepMind опубликовала AI Control Roadmap — план внутренних защитных мер для агентных ИИ-систем, которые получают доступ к инструментам, коду и инфраструктуре. Компания предлагает рассматривать часть таких агентов как недоверенные компоненты и применять к ним подходы из кибербезопасности: минимальные привилегии, мониторинг поведения, многоуровневую защиту и эскалацию ограничений по мере роста возможностей моделей.
Google DeepMind опубликовала AI Control Roadmap версии 0.1 — план защитных мер для внутренних развертываний AI-агентов. Речь идет о системах, которые используют инструменты, выполняют код и взаимодействуют с инфраструктурой, поэтому их сбои или нежелательные действия могут быть ближе к инцидентам безопасности, чем к обычным ошибкам чат-бота.
В документе Google DeepMind предлагает консервативную модель угроз: часть AI-агентов следует считать недоверенными и проектировать защиту так, будто они могут действовать вопреки целям операторов. Подход заимствует идеи из классической кибербезопасности, включая модель внутренних угроз, минимальные привилегии, zero trust, поведенческий мониторинг и defense-in-depth. Для описания возможных тактик компания вводит TRAIT&R — таксономию, построенную по аналогии с MITRE ATT&CK.
Дорожная карта связывает меры защиты не с календарем, а с возможностями моделей. Google DeepMind выделяет уровни обнаружения D1–D4 и уровни предотвращения и реагирования R1–R3: от мониторинга цепочек рассуждений и асинхронных предупреждений до контроля доступа в реальном времени, анализа действий, мониторинга внутренних активаций и инфраструктуры отключения. Компания подчеркивает, что такие меры должны дополнять выравнивание моделей, а не заменять его.
Параллельно Google DeepMind выпустила документ The Three Layers of Agent Security, адресованный политикам и разработчикам стандартов. В нем безопасность AI-агентов разбита на три уровня: защита отдельных агентов, управление рисками многоагентных систем и использование агентных систем для киберзащиты при одновременной защите самих таких инструментов.
Источник: storage.googleapis.com