Brave: локальный запуск LLM не защищает от косвенной инъекции промпта

Исследователи Brave Software показали два сценария indirect prompt injection — для облачного Mozilla Tabstack и локального Cotypist для macOS. В первом случае скрытые инструкции на странице заставили агента отправить контекст диалога на внешний сайт, во втором инструкции из локального документа влияли на автодополнение и могли выводить учётные данные. Brave делает вывод, что риск связан не с облачным размещением модели, а со смешиванием доверенных инструкций и недоверенного контента в одном контексте LLM.

Исследователи Brave Software опубликовали разбор двух атак indirect prompt injection, или косвенной инъекции промпта, на ИИ-системы с разной архитектурой. Они проверили Mozilla Tabstack — облачный API для веб-автоматизации ИИ-агентов — и Cotypist, локальный инструмент автодополнения для macOS, модель которого работает на устройстве пользователя.

В сценарии с Tabstack агенту дали обычную задачу: кратко пересказать веб-страницу. На контролируемой исследователями странице были размещены скрытые инструкции, невидимые для пользователя, но доступные в текстовом слое страницы. Вместо пересказа агент перешёл на внешний домен, заполнил форму данными из исходного запроса и накопленного контекста диалога и отправил её.

Локальный пример с Cotypist показал другую форму риска: инструкции, вложенные в локальный документ, могли менять предлагаемое автодополнение и выводить в подсказках учётные данные. Brave подчёркивает, что последствия здесь меньше, чем у автономного веб-агента: Cotypist не выполняет действия сам и требует подтверждения пользователем предлагаемого текста.

Mozilla Tabstack была уведомлена 13 мая 2026 года, подтвердила проблему 14 мая и, по данным Brave, подтвердила исправление 1 июня; Brave отдельно проверила исправление. Команда Cotypist была уведомлена 1 июня и подтвердила проблему 2 июня.

Главный вывод работы — локальное исполнение модели само по себе не устраняет indirect prompt injection. Уязвимость возникает там, где система помещает доверенные инструкции и недоверенный внешний контент в общий контекст LLM, а затем позволяет модели генерировать действия или текст. В качестве системных мер Brave называет разделение данных и инструкций, принцип минимальных привилегий и контроль потоков информации.

Источник: brave.com

Связь с редакцией