Обзоры
Программы распознавания речи
4

Программы распознавания речи

Dragon Naturally Speaking 7.0 Preferred

Dragon Naturally Speaking 7.0 Preferred
Цена — $199,99
Разработчик ScanSoft
Web-сайт www.scansoft.com
Размер Нет
Страница загрузки Нет
 + 
Широчайшая функциональность; рабо-та во всех Windows-приложениях; мощные словарные базы
 — Высокая цена
 ! Лучшая из существующих программ распознавания речи

Однозначно лучший из существующих модулей распознавания речи! За свою долгую историю Dragon прошел весь нелегкий путь от солдата до маршала; нет, пожалуй, все-таки не до маршала, но звание генерала армии он уж точно заслужил. Весь алгоритм работы с программой предельно прост — подключаем наушники и микрофон к соответствующим выходам из аудиоплаты и запускаем саму утилиту. Вначале пользователю будет предложено откалибровать уровень звука из микрофона и надиктовать компьютеру ряд уже готовых текстов для более тонкой подстройки Dragon Naturally Speaking под ваши тембр, интонацию и произношение. И наконец, интерактивный tutorial, где пользователя обучают базовым голосовым командам.

Стоит заметить, что ПК — это не живой собеседник и он не может додумать "проглоченные" слоги или понять неразборчиво сказанное предложение. Не меньшее значение имеет и собственный акцент диктора — такой уровень английского, который, например, звучит на разнообразных международных научных конференциях, в принципе, непригоден для работы. С другой стороны, всегда есть возможность самообучения: если Dragon никак не хочет распознавать какое-то слово, не поленитесь заглянуть в Lingvo и произнести его с учетом правильной транскрипции. Уверяю вас, максимум за неделю—две вы будете не только с легкостью надиктовывать килобайты текстов, но и щеголять среди знакомых истинно английским произношением.

Все еще не удовлетворяет качество распознавания? Обратитесь к местному Accuracy Center, который позволит оптимизировать ваш пользовательский профиль и научит, как пополнять словарь популярными нео-логизмами. Возможны и более экзотические действия вроде распознавания текстового содержимого wav-файла (в том числе и с Pocket PC или напрямую с линейного выхода аудиоплаты). Кроме того, Dragon Na-turally Speaking умеет запускать различные программы, переключаться между ними и даже управлять рядом их функций (например, начинать/приостанавливать воспроизведение музыки в медиапроигрывателе или напрямую работать с меню). Ну а в состав версий Preferred и Pro-fessional дополнительно входит собственный речевой движок Real-Speech 2, один из наиболее совершенных на сегодня.

Но вернемся к записи речи. Особенно радует то, что надиктовывать текст можно не только в родном текст-процессоре DragonPad, но и в любом другом аналогичном приложении — MS Word, Outlook Express, Internet Ex-plorer и Corel WordPerfect. С таким же успехом программа работает и с ICQ, сетевым чатом (Network Assistant) и прочими instant messengers; правда, тогда некоторые команды ста-новятся недоступны, зато для отправки сообщения даже Enter нажимать не надо, достаточно сказать: "New paragraph" — и ICQ автоматически сделает это. В более специализированных приложениях, в частности в том же Word, применяются дополнительные команды: форматирование текста, правописание, редактирование — и все исключительно за счет устной речи. Если же стандартного набора приказов оказалось мало, всегда можно создать собственные, тем самым еще более расширив функциональность Dragon. Стоит немного постараться, и вполне реально набрать страницу текста без каких-либо правок. Главное — верное сочетание интонации и, само собой, произношения. Не растягивайте фразы, но и не строчите как из пулемета, иначе процент правильно понятого материала будет уверенно стремиться к нулю. Причем вовсе необязательно постоянно смотреть в словарь — даже если вы не совсем верно выговорили какое-то словосочетание (например, I’m very happy), известное программе, она "догадается" автоматически исправить текст. Поражает? Все дело в огромном словарном запасе, который наряду с продвинутой технологией распознавания речи не оставляет никаких шансов конкурентам. Как тут не вспомнить ранние версии Dragon, с которыми автор этих строк немало намучился в прошлом, но так и не добился от них качественной работы…

Intelligent Voice Recognition System (IVOS) 2.0.2A

Intelligent Voice Recognition System (IVOS) 2.0.2A
Shareware (30 дней trial, регистрация — $50)
Разработчик ComunX
Web-сайт www.ivos.biz
Размер 2,69 MB
Страница загрузки ftp://ftp.download.com/
pub/ppd/1007091810190380/
setup_ivos.exe
 + 
Микроскопический размер дистрибутива; отличная функциональность
 — Режим стенографирования речи пока не дотягивает до уровня Dragon
 ! Одна из лучших утилит в этой области

Самая скромная (по размерам дистрибутива) программа в обзоре проявила себя на удивление достойно и в значительной мере оправдала свое громкое название. Причиной тому — ее универсальность, призванная полностью искоренить средства "ручного" ввода информации. Итак, IVOS позволяет: а) распознавать речь и преобразовывать ее в текст в любом Windows-совместимом текст-процессоре; б) управлять своим ПК с помощью разнообразных голосовых команд, а также создавать свои собственные; в) озвучивать электронные книги с помощью внешних голосовых движков. Плюс, разумеется, такие мелочи, как извлечение текста из Wav-файлов, удобная, не отягощающая экран панель управления программой и демократичная (по сравнению с тем же Dragon) цена. После регистрации пользователю становится доступна технология VoiceTouch, позволяющая обучать ПК вашим собственным устным приказам.

Эффективность исполнения команд на удивление высока — пожалуй, еще лучше, чем у Realize Voice. А вот уровень распознавания "лекций" будет пониже, что и не странно: одно дело — понять пару слов, и совсем другое — цельное предложение. Надо отметить, что IVOS, как и многие другие программы распознавания речи, кроме Dragon, использует для таких целей модуль Speech API от Microsoft, и ее результативность в данной области напрямую зависит от творческих успехов этой корпорации. Тем не менее добиться качественной работы от IVOS можно уже сейчас, начитав программе все наличествующие в ее запасе обучающие тексты. Конечно, до уровня Dragon Naturally Speaking в итоге она не дотянет, но набирать не слишком сложные документы ей вполне под силу. А если еще регулярно пополнять пользовательский словарь, то и с научными терминами не будет особых проблем. Правда, здесь возникает дилемма — за ту неделю, которую придется потратить на обучение утилиты всем тонкостям работы с речью, вполне можно ударными темпами овладеть методом слепого десятипальцевого набора на клавиатуре… С другой стороны, квалификация пользователя ПК лишь повысится, если он будет владеть сразу несколькими методами ввода информации в компьютер.

Realize Voice 4.0

Realize Voice 4.0
Shareware (15 дней trial, регистрация — $49,00)
Разработчик Realize Software Corporation
Web-сайт www.realizesoftware.com
Размер 55 MB
Страница загрузки
www.realizesoftware.com/
download/RzRV40download.exe
(Web-инсталлятор)
 + 
Неприхотлива к произношению пользователя; весьма широкий набор команд
 — Качество работы все-таки могло бы быть и получше; устанавливается только на англоязычную версию Windows
 ! Руководите своим ПК с помощью одного лишь голоса

Realize Voice, в отличие от ранее рассмотренного Dragon Naturally Speaking, не очень-то способна к стенографированию (хотя такая функция в ее арсенале и имеется), зато блестяще справляется с голосовыми командами. Что примечательно, исключительно глубоких знаний в области английского не нужно — благодаря умному модулю эвристического анализатора программа без особых проблем найдет общий язык практически с любым диктором. Спектр функций Realize Voice довольно широк: от запуска исполняемых файлов и ярлыков программ до работы с корреспонденцией и сложными макросами. Как и в остальных подобных программах, от пользователя требуется лишь подключенный микрофон и пара минут для того, чтобы вникнуть в курс дела. А перед тем как приступить к собственно общению с утилитой, стоит обозначить ей фронт работ. По умолчанию в эту категорию попадают ярлыки системного меню, Рабочего стола, содержимое папки Избранное и панели быстрого запуска, а также недавно открытые документы и программы. Весь процесс полностью автоматизирован и выполняется буквально мгновенно. Правда, некоторые неудобства вызывает невозможность использования в названии команд цифр — к примеру, запустить DOOM 3 с помощью голосового приказа удастся, лишь переименовав его ярлык в "DOOM Three". То же, кстати, касается и кириллицы — не такая уж веселая перспектива, не правда ли? Впрочем, в подобном случае всегда можно прибегнуть к ручной настройке программы, напрямую указав путь к интересующему вас файлу/документу/графическому изображению и т. д. Здесь уже название файла и его координаты никакого значения не имеют — будь он хоть абвгд.exe, да и Рабочий стол уродовать не придется. Весьма порадовал и набор встроенных системных команд для работы с Windows — хоть он и не слишком велик, но перемещаться между открытыми окнами, эмулировать действие самых распространенных клавиш (Spacebar, Insert, Home и т. д.), выключать и блокировать систему с его помощью вполне реально.

Немного о макросах. Утилита позволяет объединять под одной командой целую серию операций — начиная от ввода символов с клавиатуры и системных команд до синтеза речи посредством встроенного голосового движка. Правда, до такой идиллии, как запись CD с помощью одного-единственного словосочетания, пока далеко, но время покажет… Главное, что уже сейчас можно (и небезуспешно!) "порулить" своим домашним питомцем безо всяких анахронизмов вроде мыши и клавиатуры. Попробуйте — не пожалеете!

Voice Studio 1.4.6

Voice Studio 1.4.6
Shareware (7 дней trial, регистрация — $20,97)
Разработчик Ultimate Interactive Desktop’s
Web-сайт www.voicestudio.us
Размер 57 MB
Страница загрузки
ftp://ftp.voicestudio.us/
pub/dl2/vssetup.exe
 + 
Отличная функциональность; наличие "живого" анимированного персонажа; очень низкая цена
 — Для распознавания речи используется MS SAPI; довольно высокая ресурсоемкость
 ! Великолепное дополнение к Dragon для управления ПК голосом

Пожалуй, одна из немногих, если вообще не единственная такая программа, где наш виртуальный собеседник по ту сторону монитора наконец-то обрел материальную форму. И хотя технологию MS Agent, которая используется для данных целей, пока трудно назвать прообразом искусственного интеллекта, все предпосылки для этого у нее есть. Анимированный помощник не только наделен некоторой долей самостоятельности, но и умеет отвечать на ряд стандартных фраз (вроде "Hello!", "How do you feel", "Вad computer" и т. д.). При желании его словарный и фразеологический запас легко пополнить, а кроме того, задать его действия в зависимости от "настроения". Хотя подобная болтовня с ПК и будет ограничена рамками знаний программы, никто не мешает расширить их практически до бесконечности. А там уже рукой подать и до пресловутого АІ… Впрочем, я немного отвлекся.

Собственно с функциональностью Voice Studio все в полном порядке — стенографирование (правда, Dragon значительно лучше), разнообразные голосовые команды (для большего удобства и быстрейшего запоминания их можно распечатать), а также приемлемый машинный синтез речи. Из более серьезных вещей — создание макросов для запуска сразу серии операций с помощью одного ключевого слова, даже запись и воспроизведение движений мыши! Напомню, что последняя "фича" широко используется во многих альтернативных браузерах вроде GreenBrowser или MyIE2 для выполнения ряда действий (переход на другую страницу, открытие нового окна и т. д.). Теперь не надо никаких ненужных телодвижений — достаточно произнести соответствующую команду, и компьютер автоматически воссоздаст записанный ранее скрипт. Кто знает, может, скоро и в игры мы будем играть с помощью одного только микрофона? Время покажет…

А пока Voice Studio за потрясающую дружественность и легкость в работе несомненно заслуживает высшей оценки. Пусть корректная запись речи ей пока не под силу, но управление ПК голосом здесь просто бесподобно. Лучшая из таких утилит и достойное дополнение к Dragon!

Dictation 2004 v.4.5.2399

Dictation 2004 v.4.5.2399
Shareware (7 дней trial, регистрация — $49,99)
Разработчик United Research Labs
Web-сайт www.research-lab.com
Размер 41 MB
Страница загрузки
www.bandwidthsaver.com/
downloads/dict2002.zip
 + 
Базовый набор функций по управлению ПК и записи речи; отличная работа с wav-файлами
 — Не лучшие показатели распознавания речи; надоедливый модуль правки текста
 ! Слишком мало за такую цену

Несмотря на, казалось бы, совершенно стандартные базовые умения, кое-чем Dictation 2004 все-таки похвастаться может. В первую очередь, это технология Point-and-Speak, позволяющая с легкостью создавать команды для ввода паролей, запуска ПО и диктовать практически во всех Windows-приложениях. Заявлена интеграция с MS Word, а также интеллектуальная технология правильного определения фраз. Правда, реализована она на редкость неудобно — в виде всплывающего окна, которое появляется при каждом сказанном слове и лишь отбивает всякое желание работать. Хорошо хоть, что ее можно отключить. Dictation 2004 использует все тот же SAPI 5.1, так что качество ее принципиально не отличается от другого ПО, основанного на той же технологии (Voxx, IVOS, Realize Voice и пр.). Из дополнительных функций стоит отметить WAV Recorder для захвата информации с аудиокассет, мобильных устройств, микрофонов и последующей записи ее в wav-файлы; потом текст из них извлекается с помощью отдельного апплета Dictation — Wave-to-Text. Пока что он, конечно, все еще далек от идеала, но если у диктора четкая речь и неплохое произношение, то проблем не возникнет.

Voxx 4.0

Voxx 4.0
Shareware (30 дней trial, регистрация — $34,95)
Разработчик Voxx Support Team
Web-сайт www.4mice.com
Размер 44,2 MB
Страница загрузки
4mice.fileburst.com/
voxxinstall/voxxsetup.exe
 + 
Универсальность в работе; разнообразие возможностей
 — "Тренировка" программы займет много времени
 ! Интересный продукт, но мог быть и лучше…

Еще один "мастер на все руки", позволяющий вволю поболтать с ПК. Список возможностей программы весьма напоминает таковой у IVOS (стенографирование/голосовые команды/чтение текста), за исключением того, что здесь есть полезный бонус — скрупулезное озвучивание каждого вашего действия, будь то набор текста или открытие файла. Программа использует тот же Microsoft Speech API, что и IVOS, поэтому и качество распознавания у нее аналогичное. Наличествует неплохой набор голосовых команд для навигации браузером, элементарных операций в текстовом редакторе (сut/copy/paste и т. д.), а также работы с окнами, имеются ярлыки вызова системных апплетов, даже открытие/закрытие лотка оптического привода — в общем, все для комфортной работы. Что же касается синтеза речи, то он напрямую зависит от соответствующих модулей, установленных в системе. Бесплатные движки от Microsoft, поставляемые вместе с программой, далеки от идеала, но, в принципе, к ним привыкнуть можно. Более удобный вариант, увы, не безвозмездный — попробовать сторонние разработки, в частности Digit PC, ко всему прочему обладающий весьма неплохим русскоязычным диктором. Учитывая все плюсы и минусы, Voxx будет неплохим кандидатом на покупку. Кстати, trial-версия ограничена лишь количеством фраз/команд на сеанс работы; для начала нового сеанса достаточно перезапустить программу…

Заключение

Несмотря на все еще многочисленные недостатки, программы распознавания речи уже перешли из ранга игрушек в серьезный инструмент делового человека. Если раньше толку от них было мало, то теперь они позволяют реально облегчить жизнь пользователю и разрушить ранее незыблемый стереотип, что компьютер — всего лишь железный ящик, перемалывающий цифры. И конечно, самый приятный факт состоит в возможности ощутить технологический прогресс XXI столетия, о котором так часто писали многочисленные фантасты, уже сейчас. Присоединяйтесь!


Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: