Опубликована открытая аудиомодель Audio-Interaction для непрерывного звукового потока

Audio-Interaction обрабатывает входной звук как поток и каждые 0,4 секунды решает, продолжать слушать или начать ответ. Код опубликован на GitHub, веса модели доступны на Hugging Face под лицензией Apache-2.0.

Исследовательская группа опубликовала Audio-Interaction — открытую аудио-языковую модель на 3 млрд параметров для работы с непрерывным звуковым потоком. В отличие от систем, которым обычно передают уже завершенный фрагмент записи, модель обрабатывает звук порциями по 0,4 секунды и на каждом шаге выбирает между состоянием молчания и началом текстового ответа.

Audio-Interaction принимает аудио на вход и генерирует текст; для полноценного голосового ассистента ее нужно соединять с системой синтеза речи. В карточке модели указано, что она использует аудиоблок Qwen2.5-Omni, работает с 16-кГц монофоническим аудио и не требует отдельной эвристики для определения конца реплики: решение о том, отвечать или ждать дальше, встроено в протокол декодирования.

Авторы связывают модель с подходом SoundFlow: он объединяет подготовку потоковых аудиоданных, обучение на решениях уровня аудиофрагмента и асинхронный режим вывода. В техническом отчете на arXiv Audio-Interaction описана как попытка объединить распознавание, перевод, диалог и реакцию на фоновые звуки в одной потоковой аудио-модели.

Веса опубликованы на Hugging Face с лицензией Apache-2.0. Набор StreamAudio-2M, связанный с обучением модели, также размещен на Hugging Face; в репозитории проекта указано, что полные тренировочные конфигурации и пайплайн подготовки данных будут опубликованы позже.

Источник: github.com

Связь с редакцией