Автоматизированный диалог

Сергей Кузнецов
23.05.2002
Открытые системы, #05/2002

Обзор апрельского, 2002 г. номера журнала Computer (IEEE Computer Society, v. 15, no. 4, April 2002)

Моя обязанность перед IEEE Computer Society и «Открытыми системами» ежемесячно представлять обзор журнала Computer наряду с дополнительными хлопотами обеспечивает меня привилегией его регулярного внимательного чтения. Как видно даже из моих обзоров, тематика журнала необычайно широка и его читатели могут находиться в курсе всех основных перспективных исследовательских и производственных работ в компьютерной отрасли. В начале апреля меня неожиданно спросили, продолжают ли сейчас заниматься вопросами распознавания речи? Хотя это не моя область, я уверенно ответил «да»: именно этой теме посвящен апрельский номер журнала Computer.

Более того, вступительная заметка приглашенных редакторов Савиты Шринивасан (Savitha Srinivasan) и Эрика Брауна (Eric Brown) из исследовательских лабораторий корпорации IBM громко названа «Становится ли распознавание речи главным направлением?» («Is Speech Recognition Becoming Mainstream?»). Как отмечают ее авторы, в последние десять лет развитие технологии распознавания речи привело к созданию высокопроизводительных алгоритмов и систем. Соответствующие технологии быстро совершенствуются, доступен ряд интересных и полезных коммерческих приложений. В числе наиболее перспективных направлений выделяется Voice Web на основе разработанного консорциумом VoiceXML Forum (www.voicexml.org) специализированного языка разметки VoiceXML (www.w3.org/voice). Отвечая на вопрос, вынесенный в заглавие заметки, ее авторы отмечают, что сочетание в инфраструктуре VoiceXML основанной на Web связности, беспроводных технологий, портативных устройств и эффективных средств распознавания речи на основе грамматик в состоянии привести к становлению массового рынка, к появлению которого так долго стремились разработчики безовой технологии.

Первая большая статья тематической части номера также написана авторами из Ватсоновского исследовательского центра компании IBM — Мукундом Падманабханом (Mukund Padmanabhan) и Майклом Пичены (Michael Picheny). Она называется «Алгоритмы распознавания речи с большим словарным запасом» («Large-Vocabulary Speech Recognition Algorithms»). Статья содержит обзор исследовательских проектов, связанных с проблемой так называемого улучшенного распознавания речи (Advanced Speech Recognition — ASR).Авторы отмечают: хотя давно исследуются методы распознавания непрерывной речи с большим словарным запасом, современные коммерчески доступные приложения либо ограничиваются словарным запасом в несколько тысяч слов, либо требуют специальной надиктовки слов, призванной минимизировать ошибки распознавания. В современных исследовательских прототипах используются статистические модельные методы. В сочетании с возрастающей мощностью компьютеров эти методы позволяют реализовывать сложные модели распознавания с сотнями тысяч параметров. Тем не менее, современные исследовательские системы все еще допускают относительно много ошибок при работе со спонтанными источниками речи и чувствительны к внешним шумам. По мнению авторов статьи, при сохранении имеющихся сегодня темпов совершенствования технологий задача достижения качества распознавания речи, совместимого с качеством распознавания человеком, может быть достигнута менее чем через десять лет.

Группа из пяти сотрудников из исследовательской лаборатории корпорации AT&T опубликовала статью «Автоматизированный естественный разговорный диалог« («Automated Natural Spoken Dialog»). Первым в списке авторов указан Аллен Горин (Allen Gorin). Речь идет о технологии HMIHI («How May I Help You?»), разработанной в AT&T для обеспечения близкого пользователям автоматизированного голосового интерфейса с телефонными службами (www.research.att.com/^algor/hmihi). Данная технология включает многие современные методы распознавания речи, но ее особенностью является сокращение требований к точному распознаванию речи за счет выделения так называемых «основных» (salient) слов и фраз. Распознавание этих фрагментов речи с последующим анализом выявленных комбинаций позволяет системе понять смысл вопроса и правильно ответить на него «на естественном языке».

Третья и последняя статья подборки называется «От мультимедийной выборки к управлению знаниями» («From Multimedia Retrieval to Knowledge Management»). Ее написали Педро Морено (Pedro Moreno), Дж.-М. Ван Тонг (J.-M. Van Thong), Бет Логан (Beth Logan) из исследовательской лаборатории корпорации Compaq Computer и Гарет Джонс (Gareth Jones) из Университета Экзестера (Великобритания). В этой обзорной статье основная часть материала посвящена состоянию дел в области поиска и выборки звуковой информации. Отмечается, что организации точного поиска мешают ошибки, свойственные современным системам распознавания речи. Вторая часть связана с поддержкой метаданных звуковой информации. Обсуждаются специфические особенности таких метаданных, способы их представления и индексации. Наконец, последняя часть статьи посвящена начальным попыткам построения систем управления знаниями на основе хранимой аудиоинформации. Это направление пока развито очень слабо. Обсуждаются две системы анализа записей совещаний с использованием вариантов технологии data mining.

Апрельский номер журнала Computer включает еще три объемных статьи, не связанных общей тематикой. Ричард Тэйер (Richard Thayer) из Университета Сакраменто (штат Калифорния) опубликовал статью «Системная инженерия программного обеспечения: введение» («Software System Engineering: A Tutorial»). Системной инженерией программного обеспечения (SwSE) называются действия, задачи и процедуры, получаемые при применении принципов инженерии программ (SwE) к разработке системы программного обеспечения. Некоторые практики считают, что SwSE представляет собой частный случай системной инженерии (SE), другие полагают, что это часть SwE. По мнению автора, к SwSE следует относиться как к отдельному мощному средству управления технической разработкой больших программных проектов. В статье на основе интеграции определений и процессов, специфицированных в стандартах IEEE SwE, определяется процесс SwSE.

Оставшиеся материалы затрагивают менее глобальные вопросы. Статья сотрудника исследовательской лаборатории компании NEC Начикета Потлапалли (Nachiketh Potrapally) озаглавлена «Оптическое дактилоскопирование для защиты данных: предложение» («Optical Fingerprinting to Protect Data: A Proposal»). Предлагается аппаратно-программное решение, затрудняющее нелегальное копирование оптических дисков. На диск заносится уникальная физическая идентификационная метка (автор называет ее «дисковым отпечатком» — discprint), содержимое которой используется для шифрования данных. Для чтения и дешифрования содержимого диска в дисковод должна быть загружена специальная смарт-карта. Предлагаемая схема, названная автором Thor, не обеспечивает гарантии отсутствия пиратского копирования оптических дисков, но существенно усложняет это действие.

Еще одна статья написана Дональдом Уэлчем (Donald Welch), Даниелем Рагсдейлом (Daniel Ragsdale) и Уэйном Шепенсом (Wayne Schepens) из Военной академии в Вест-Пойнте. Название статьи на русском языке звучит примерно как «Обучение методам обеспечения безопасности информации» («Training for Information Assurance»). В публикации описываются учения, в ходе которых кадеты из трех американских военных учебных заведений отражали информационные атаки на построенную ими сеть со стороны Красной Команды (Red Team), состоящей из специалистов Агентства национальной безопасности США. Целью учений было совершенствование подготовки военных разработчиков и администраторов компьютерных сетей. Цитируя Фазиля Искандера, «интересное начинание, между прочим».

Из представленных в номере новых книг хочу выделить одну: Randy Allen and Ken Kennedy. Optimizing Compilers for Modern Architectures: A Dependence-Based Approach. Morgan Kaufmann, San Francisco; ISBN 1-55860-286-0, 790 pp., $79.95. Конечно, литература, посвященная оптимизирующим компиляторам, интересует не всех. Однако в данном случае мы имеем дело с монографией классиков этого жанра. Их статьями пользовалось несколько поколений отечественных специалистов. В книге суммируется многолетний опыт авторов, обсуждаются современные перспективные методы оптимизации на основе анализа зависимости по данным.

Вот и все по поводу апрельского номера. По-прежнему готов к контактам с вами: kuzloc@ispras.ru.