25.06.2026
Google добавила в Gemini 3.5 Flash встроенный инструмент Computer Use: модель может анализировать скриншоты интерфейса и выдавать действия для браузерных, мобильных и настольных сред. Возможность доступна через Gemini API и ориентирована на агентные сценарии вроде тестирования ПО и автоматизации рабочих процессов, но пока помечена как Preview.
Google объявила, что Computer Use стал встроенным инструментом Gemini 3.5 Flash. Раньше эта возможность предоставлялась как отдельная модель Gemini 2.5 computer use; теперь Google предлагает использовать основную Flash-модель для агентов, которые работают с браузером, мобильными и настольными интерфейсами.
Модель не получает прямого доступа к чужому компьютеру сама по себе: приложение-разработчик передает ей скриншот, а в ответ получает структурированное UI-действие — например клик, прокрутку или ввод текста. Клиентская среда выполняет действие, делает новый скриншот и отправляет его обратно модели, формируя цикл управления интерфейсом.
По оценке Google, Gemini 3.5 Flash набирает 78,4% на OSWorld-Verified, бенчмарке для агентного управления компьютерным интерфейсом; это выше результата Gemini 3 Flash (65,1%) и близко к GPT-5.5 (78,7%) в сравнении, опубликованном Google. Среди заявленных сценариев — автоматизированное тестирование веб-приложений, заполнение форм и офисная автоматизация.
Инструмент доступен через Gemini API и Gemini Enterprise Agent Platform. В документации Computer Use помечен как Preview: Google предупреждает о возможных ошибках и уязвимостях, рекомендует запускать агентов в изолированной среде, оставлять контроль за важными действиями человеку и использовать защиту от prompt injection.
Источник: blog.google