OpenAI признает, что атаки типа "prompt injection" на его AI-браузер Atlas не будут полностью устранены в ближайшее время. Компания работает над укреплением защиты Atlas.
OpenAI запустила браузер ChatGPT Atlas в октябре, но вскоре обнаружила уязвимости к атакам "prompt injection", которые манипулируют AI-агентами, выполняя вредоносные инструкции.
Компания признает, что полностью устранить эту угрозу сложно и работает над укреплением защиты Atlas.
Для этого OpenAI использует "LLM-based automated attacker" - бота, обученного с помощью reinforcement learning, чтобы имитировать действия хакеров и обнаруживать уязвимости.
Кроме того, компания рекомендует пользователям ограничить доступ агентов к конфиденциальным данным и подтверждать действия перед выполнением.