11.05.2026
OpenAI объявила о выпуске нового поколения моделей для голосовых приложений в API. В набор вошли GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper.
GPT-Realtime-2 предназначена для голосовых агентов, которые должны не только быстро отвечать, но и удерживать контекст, выполнять действия с помощью инструментов и корректно продолжать разговор при уточнениях или перебиваниях. GPT-Realtime-Translate рассчитана на синхронный перевод речи, а GPT-Realtime-Whisper — на потоковое распознавание речи с малой задержкой.
Для разработчиков это важный шаг в сторону более естественных голосовых интерфейсов. Речь идёт уже не только о преобразовании голоса в текст и обратно, а о приложениях, где голосовой диалог становится полноценным способом управления сервисами, поиска информации, поддержки пользователей и работы с многоязычной аудиторией.
Источник: OpenAI