Русскоязычные речевые технологии


Те, кто следит за новостями из области IT и коммуникаций, наверняка обратили внимание на небывалый рост во всем мире интереса к компьютерным речевым технологиям, бурно развивающимся и находящим все новые применения. Насколько этот бум касается нас с вами, чем реально мы можем воспользоваться уже сегодня и сможем в самом ближайшем будущем — именно об этом и пойдет речь.


Пожалуй, можно без преувеличения сказать, что последние лет эдак 30 во многих
научно-фантастических фильмах и литературных произведениях люди будущего используют
для общения с различными "умными" машинами обычную человеческую речь.
Это стало таким обыденным, что, к примеру, диалог Корбена Далласа со своим такси
(фильм "Пятый элемент") воспринимается нами как совершенно естественная
вещь. Действительно, ну не вечно же люди будут вглядываться в свои мониторы, чтобы
прочесть полученные письма, и давить на кнопки, чтобы на них ответить! Между тем
проходят годы, а способ общения с компьютерами остается прежним. Да, появились
дополнительные клавиши на клавиатуре, мыши с колесиками и т. д., но эти изменения
все же, скорее, количественные, чем качественные. И только в последние несколько
лет стал заметен реальный прогресс в сфере компьютерных голосовых технологий.

Многие крупные разработчики ПО, такие, как Microsoft, IBM, Oracle, называют голосовые технологии в числе наиболее приоритетных направлений своей деятельности. Буквально каждые две-три недели в новостях появляются сообщения о выходе новых программных продуктов для синтеза и распознавания речи. Функции голосового ввода начинают использоваться в самых разнообразных программных продуктах и электронных устройствах. В современных приложениях компьютерной телефонии фактически обязательной стала поддержка речевого интерфейса с пользователем. Последние результаты в области голосовых технологий позволяют уверенно распознавать обычную слитную человеческую речь и озвучивать тексты с таким высоким качеством, что они практически не отличаются от прочитанных человеком.

Однако у всех этих потрясающих достижений есть одно весьма существенное "но" — как правило, они относятся только к английскому языку, который, к большому сожалению, все еще чужд и непонятен для большинства наших соотечественников. Неужели и на этот "праздник жизни" нам остается только смотреть со стороны? Увы! На сегодняшний день на рынке нет ни одного программного продукта, способного синтезировать или распознавать украинскую речь. Впрочем, учитывая известные исторические и иные обстоятельства, для многих жителей Украины приемлемым является русский язык, с которым, к счастью, не все так плохо. В данной статье мы и постараемся представить современное положение дел с русскоязычными компьютерными речевыми технологиями.

Microsoft Agent



Genie читает письмо в Microsoft
Outlook

У компании Microsoft есть очень интересная
разработка — Microsoft Agent. Вы, наверное, помните, что в Microsoft Office начиная
с версии 97 появились анимированные ассистенты — скрепка Clippit, робот F1, волшебник
Merlin, кот Links и др. Представьте теперь такого же "мультяшного" персонажа,
но также умеющего произносить тексты и воспринимать "на слух" человеческую
речь. Вот это и будет Microsoft Agent. Распространяется совершенно бесплатно,
все необходимое можно найти по адресу www.microsoft.com/msagent.
Поставляемые в комплекте речевые модули позволяют озвучивать текст на 11 языках
(в том числе и русском) и распознавать на одном — английском.

Модуль для синтеза русской речи в Microsoft Agent — L&H TTS3000 Russian —
реализован компанией Lernout &
Hauspie
, ведущим производителем ПО, специализирующимся на голосовых технологиях.
Синтезированная речь, конечно, заметно отличается от человеческой, хотя разобрать
ее можно без труда. К сожалению, слова, которые пишутся одинаково, всегда одинаково
и произносятся (что неправильно, например, для словосочетаний "от первого
лица" и "первые лица"). Скорость, громкость и тембр
синтезированного голоса можно регулировать. Грамотно произносятся общепринятые
сокращения и аббревиатуры, URL- и e-mail-адреса. Если в тексте встречаются слова,
записанные латиницей, они проговариваются по правилам английского чтения, но русскими
звуками — получается довольно внятная английская речь с русским акцентом.

Хочется особенно отметить возможность указывать тематику (контекст) озвучиваемого фрагмента. Предусмотрены три контекста, определяющие правила для e-mail-сообщений, адресных данных и обычного текста. Так, при озвучивании e-mail вместо "Subject:" будет произнесено "Заголовок", а вместо "From:" — "Автор письма", понятно звучат строки, процитированные из предыдущих писем. Обычно такие строки начинаются с непроизносимых символов ">" или инициалов автора и поэтому представляют определенную трудность для читающих программ. L&H TTS3000 здесь на высоте, например, фрагмент

PG>Если можно, то и пример
PG> какой-нибудь добавьте.

будет прочитан так:

Пэ Жэ: Если можно, то и пример какой-нибудь добавьте.

Даже "смайлики" заменяются на соответствующие им возгласы, например 🙂 — на "Ха-ха-ха!", 🙁 — на "Как жаль!"!

Microsoft Agent — простая и хорошо документированная технология, которой может
воспользоваться практически каждый. Существует множество программ (в том числе
и бесплатных), умеющих читать документы, Web-страницы, содержимое буфера обмена,
сообщения e-mail и т. д. Например, Agent
Messenger
может озвучивать сообщения MSN Messenger, а CyberBuddy
— электронную почту, новости, сообщения ICQ, прогнозы погоды, курсы акций
и даже рассказывать анекдоты.

Однако простую функцию по преобразованию текста в речь можно реализовать и самому. В листинге приведен фрагмент кода, который озвучивает текущий документ Microsoft Word. После инсталляции Microsoft Agent и модуля для синтеза русской речи создайте в Word новый макрос и скопируйте текст листинга внутрь процедуры (между строками Sub и End Sub). При вызове макроса вы увидите джинна, который прочтет ваш текст.

' создаем и инициализируем Agent Control
Set control = CreateObject("Agent.Control")
control.Connected = True
' загружаем агента Genie
control.Characters.Load "Genie", "Genie.acs"
Set Genie = control.Characters("Genie")
Genie.LanguageID = &H419 ' русский
' произносим
Genie.Show
Set Request = Genie.Speak(ActiveDocument.Content)
While Request.Status <> 0
DoEvents
Wend
Genie.Hide
Макрос для озвучивания
документа Microsoft Word


Этот же код можно использовать в Microsoft Outlook для озвучивания открытого сообщения — достаточно

ActiveDocument.Content

заменить на

"Ctx=""E-mail""" + ActiveInspector. CurrentItem.Body

Digalo

У французской компании Elan Informatique (в настоящее время уже входящей
в состав Lernout & Hauspie) также есть компонент для синтеза русской речи
Digalo. Качество и разборчивость
синтезированной речи немного выше, чем у L&H TTS3000, правильнее расставляются
ударения, но значительно хуже произносятся английские слова, встречающиеся в русском
тексте, недоступна настройка на тематику, кроме того, пока реализован только мужской
голос. Digalo поддерживает спецификацию Microsoft Speech API 4, для которой на
сайте Microsoft можно бесплатно
получить SDK
. Это позволяет Digalo работать с технологией Microsoft Agent.
Однако, в отличие от L&H TTS3000, его также можно использовать и при разработке
более серьезных приложений, например систем компьютерной телефонии, — синтезировать
звук в .wav-файл или просто в память, а затем проигрывать в телефонную линию.
К тому же одна копия Digalo стоит всего $29, что делает его очень доступным и
привлекательным для отечественных разработчиков (для тиражирования программы,
использующей Digalo, необходимо заключить с Elan Informatique лицензионное соглашение,
предусматривающее дополнительную плату).

"Говорящая мышь"

Синтезом русской речи занимается также Клуб
голосовых технологий МГУ им. М. В. Ломоносова
. Здесь разработана технология
"Говорящая мышь", позволяющая озвучивать тексты мужским и женским голосом.
Качество синтезированной речи высокое, произношение и интонация близки к естественным.
Ударения расставляются с учетом большого словаря и формы употребления слов. Уникальной
возможностью является поддержка режима пения. Однако у "Говорящей мыши"
есть и весьма существенные недостатки. Так, плохо произносятся тексты, содержащие
сокращения, аббревиатуры, адреса, номера телефонов и т. п.

Пользователь, собирающийся озвучивать имеющиеся у него тексты, может приобрести разработанное КГТ Windows-приложение "Говорящая мышь для дома и офиса" (копия стоит около $20). Программиста же, желающего воспользоваться "Говорящей мышью" при разработке своей программы, ждет разочарование. Технология имеет оригинальный программный интерфейс, не совместимый с другими разработками, а документация практически полностью отсутствует — для освоения своего пакета КГТ предлагает покупателю приехать к ним в офис, где они якобы все показывают на примерах за несколько часов! И все это при весьма и весьма высоких ценах — стоимость модуля для синтеза мужским голосом составляет $800, женским — $1500. К этому нужно еще добавить $500 за словарь ударений, а для корректного прочтения русских текстов, содержащих английские слова, придется дополнительно выложить еще порядка $800. Разумеется, при распространении своих программ, использующих "Говорящую мышь", требуется еще выплачивать авторские отчисления, размер которых устанавливается индивидуально.

"Горыныч"

Компания Dragon Systems
еще до того, как вошла в состав Lernout & Hauspie, выпускала продукт для распознавания
речи — Dragon Dictate. Фирма Voicelock совместно с White Computers разработала
для него модуль "Горыныч", позволяющий управлять приложениями и диктовать
тексты по-русски. Несмотря на солидный возраст, это решение и сегодня остается
практически единственным. В Dragon Dictate применялась устаревшая по нынешним
меркам технология, требующая от пользователя раздельного произнесения всех слов
с обязательными паузами между ними. После того как Dragon Systems была приобретена
компанией Lernout & Hauspie, а также из-за повсеместного перехода к распознаванию
естественной слитной речи продукт Dragon Dictate превратился в Dragon NaturallySpeaking,
который уже не поддерживает русский язык.

Реальные попытки использовать "Горыныч" (или построенные на том же ядре программы "Комбат" и "Диктант") показали, что, к сожалению, эта технология недостаточно удобна. При работе с микрофоном, встроенным в ноутбук или установленным на столе, качество распознавания речи совершенно неприемлемо, поэтому необходимо применять головную гарнитуру. Было бы здорово использовать радиомикрофон, который дал бы возможность, скажем, диктовать тексты, прохаживаясь по комнате. Однако при этом пользователь не заметит некорректно распознанных слов, в результате чего качество работы еще ухудшится. Фактически это обстоятельство заставляет постоянно смотреть на монитор, что, согласитесь, не слишком комфортно.

В целом "Горыныч" вполне подходит для управления компьютером (открытия/закрытия окон, навигации по меню, перемещения по документу), но для того чтобы система распознавала диктуемый текст (хотя бы с паузами между словами), необходимо довольно-таки долго ее обучать. Этот процесс, по правде говоря, весьма утомителен и требует аккуратности, особенно на начальном этапе, который может занять от нескольких дней до нескольких месяцев — в зависимости от стараний пользователя и его дикции. Утешительно лишь то, что со временем алгоритм распознавания подстраивается к голосу и особенностям произношения пользователя и позволяет вводить тексты быстрее, чем с помощью клавиатуры.

Перспективные разработки

Кроме перечисленных выше, существует еще несколько организаций, которые занимаются русскоязычными речевыми технологиями, однако не имеют пока готовых продуктов.

Интересная работа ведется в Минске фирмой "Сакрамент". Эта компания
создает системы как для синтеза, так и для распознавания русской речи. Имеющиеся
демонстрационные
примеры
позволяют сделать вывод о серьезности разработки — речь, синтезированная
как мужским, так и женским голосом, очень разборчива и близка к естественной.
Программа поддерживает спецификацию Microsoft SAPI 4, точность распознавания отдельных
слов и речевых команд составляет 95—98%. В самом ближайшем будущем появится коммерческая
версия синтезатора речи. В планах компании — распознавание слитной речи, поддержка
украинского и белорусского языка.

В 1997 г. Bell Laboratories, подразделение компании Lucent Technologies, объявило
о планах разработки синтезатора русской речи
. Однако до сегодняшнего дня,
кроме примеров озвученных фраз, ничего так и не появилось. Судя по примерам, качество
речи должно быть очень высоким, но завершатся ли эти разработки, пока трудно сказать.

С 1996 г. московская компания "СТЭЛ
— КомпьютерныеСистемы"
в сотрудничестве с ведущими специалистами филологического
факультета МГУ им. М. В. Ломоносова, вычислительного центра РАН и ряда других
организаций выполняет проект по созданию прототипа "дикторонезависимой"
системы распознавания русской речи. Пока, к сожалению, реальных результатов у
них нет.

Целый ряд компаний имеют в своем арсенале языконезависимое ПО для распознавания звуков из ограниченного словаря. Такое ПО может применяться, например, в мобильных телефонах для выбора записей из адресной книги, а также для управления компьютером. В общем-то, используемые в таких программах технологии не являются речевыми, поэтому они не включены в настоящий обзор.

Заключение

Несмотря на достаточно безрадостную картину сегодня, надежда на некоторые изменения в ближайшем будущем все же есть. Cудя по всему, серьезных результатов можно ожидать именно от разработчиков из стран бывшего CCCP — интерес пользователей к этому ПО есть, специалисты, которым по силам его создать, кажется, тоже, и, что также немаловажно, русский язык для многих все еще является родным.

Через какое-то время голосовые интерфейсы займут и в нашей жизни заметное место.
Возможно, они будут использоваться в интерактивном телевидении и Internet, как
изначально планировала Microsoft. Не исключено, что и у нас появятся автоматизированные
телефонные системы для заказа билетов на поезда и самолеты, бронирования столиков
в ресторане и мест в театре. А быть может, компьютер со временем действительно
превратится в полноценного собеседника.

Сравнительные характеристики
наиболее популярных программ синтеза русской речи
Характеристика
L&H TTS3000
Digalo
"Говорящая мышь"
Поставщик
Microsoft
Elan Informatique
КГТ МГУ
Разборчивость
Хорошо
Хорошо
Хорошо
Близость к естественной речи
Удовлетворительно
Хорошо
Хорошо
Интонация
Удовлетворительно
Удовлетворительно
Хорошо
Ударения
Удовлетворительно
Хорошо
Отлично
Регулировки параметров синтеза речи
Хорошо
Удовлетворительно
Хорошо
Поддерживаемые голоса
Мужской и женский
Мужской
Мужской и женский
Настройка тематики текста
+
Создание пользовательского словаря
+
+
Поддержка стандартного API
SAPI 4
SAPI 4
Документация
Отлично
Хорошо
Плохо
Стоимость
Бесплатно, но только в составе Microsoft Agent
$29
> $3000 за два голоса