Google выпустила Gemini 3.5 Live Translate для потокового перевода речи

Google представила Gemini 3.5 Live Translate — аудиомодель для почти синхронного перевода речи в речь более чем на 70 языках. Для разработчиков она доступна в публичной предварительной версии через Gemini Live API и Google AI Studio; Google Meet получит функцию сначала в закрытом превью для части клиентов Workspace.

Google представила Gemini 3.5 Live Translate — новую аудиомодель семейства Gemini для перевода устной речи в речь почти в реальном времени. Модель автоматически определяет более 70 языков и, по заявлению компании, генерирует перевод непрерывно, отставая от говорящего на несколько секунд, а не ожидая завершения реплики.

Ключевой сценарий для разработчиков — встраивание живого перевода в звонки, встречи, уроки, трансляции и другие приложения с потоковым аудио. Публичное превью доступно через Gemini Live API и Google AI Studio; в документации модель указана как gemini-3.5-live-translate-preview.

Google также начала распространять модель в приложении Google Translate для Android и iOS. В Google Meet перевод на базе Gemini 3.5 Live Translate сначала появится в закрытом предварительном доступе для выбранных корпоративных клиентов Google Workspace, а более широкий запуск запланирован на более поздний срок в 2026 году.

Компания отдельно отмечает, что сгенерированное моделью аудио маркируется водяным знаком SynthID. В опубликованной Google DeepMind карте модели перечислены и ограничения: возможные проблемы с устойчивостью голоса, определением языка при акцентах или быстрых переключениях языков, а также с обработкой фонового шума.

Источник: blog.google

Связь с редакцией