Яндекс разработал 200-килобайтную модель голосовой активации для носимых устройств

Модель предназначена для локального распознавания голосовых команд в наушниках, умных часах и других компактных гаджетах. Для экономии энергии используется двухэтапная схема: сначала лёгкая модель ищет речь в аудиопотоке, затем основная сеть проверяет команду активации.

«Яндекс» разработал нейросетевую модель для голосовой активации носимых устройств. Как сообщил руководитель направления голосовой активации «Яндекса» Дмитрий Солодуха, модель занимает около 200 КБ и рассчитана на локальную работу в устройствах с ограниченными аккумулятором, памятью и вычислительной мощностью — например, наушниках и умных часах.

В таких устройствах система голосового управления должна постоянно анализировать аудиопоток и при этом не расходовать заряд слишком быстро. В реализации «Яндекса» обработка устроена в два этапа: сначала малозатратная модель определяет наличие речи, а основная нейросеть запускается только после этого и проверяет команду активации.

Для снижения нагрузки команда сократила число параметров основной модели примерно в десять раз за счёт более компактной архитектуры. Ещё один элемент подхода — использование NPU, специализированных нейропроцессорных блоков, которые выполняют операции нейросетей энергоэффективнее обычного CPU.

Разработка относится к направлению on-device AI: локальная обработка голосовых команд уменьшает задержки и снижает необходимость постоянно передавать аудиоданные в облако. На отдельной странице носимых ИИ-устройств «Яндекс» уже описывает сценарии работы «Алисы AI» с функцией «Моя память» для голосовых записей, списков и напоминаний.

Источник: tass.ru

Связь с редакцией