Рубрики Обзоры

Модули преобразования текста в речь

Опубликовал
ITC.UA

L&H TruVoice& TTS3000 Voice Engines

L&H TruVoice& TTS3000 Voice Engines
Freeware
Разработчик Lernout&Haspie
Web-сайт www.microsoft.com/msagent
Страница загрузки www.microsoft.com/
msagent/downloads/user.asp
+ Бесплатные; небольшой размер; удовлетворительное качество звучания английского языка
- Реализация русского оставляет желать лучшего
! Как для бесплатного движка, то вполне сносно

Бесплатные голосовые движки от известной своими наработками в этой области компании Lernout&Haspie оказались на поверку весьма неплохими, даже несмотря на их древность и отсутствие свежих обновлений. К услугам пользователя более десяти "дикторов" самых распространенных языков мира, в том числе и русскоговорящий. На коротких предложениях все весьма пристойно, а вот длинные фразы программе явно не под силу. Здесь "речь" хоть и терпима, но больше всего напоминает дребезжащее старое радио — шум, невыразительный "плавающий" звук, заглатывание окончаний. Но вы и не ожидали от "халявы" чего-то из ряда вон выходящего, не правда ли? Еще хуже ситуация с русским — создается впечатление, что говорит, скорее, финн или прибалт, но уж никак не носитель этого языка: беглая, невыразительная речь, настоящий хаос в области ударений и совершенно дикие скачки в интонации. В итоге работать с кириллицей не представляется возможным, разве что только для того, чтобы поднять настроение — уверяю, такого клоуна ни в одном цирке не сыщешь!

Microsoft Speech Engine

Microsoft Speech Engine
Freeware
Разработчик Microsoft
Web-сайт www.microsoft.com
Размер 68 MB
Страница загрузки www.microsoft.com/
downloads/details.aspx?
FamilyID=5e86ec9740a
7453fb0ee6583171b
4530&DisplayLang=en
+ Бесплатный; устанавливается вместе с Windows XP
- Отвратительное качество работы
! Только если нет возможности использовать другие голосовые движки

Пожалуй, одним из немногочисленных достоинств этого движка является то, что он уже предустановлен в Windows XP, и ее обладателям не придется вытягивать дистрибутив Microsoft Speech Development Kit (а это целых 68 MB), в состав которого он, собственно, и входит. В отличие от всех своих остальных собратьев детище Microsoft не использует словари и фонемы, а синтезирует речь на ходу с помощью математической модели, что не преминуло сказаться на ее качестве. Прежде всего это характерный акцент, не лучшие интонации и отвратительный выговор аббревиатур и дат. Так, "2004 год" MS Speech Engine произнесет как "two zero zero four", а не "two thousands four", а в таком невинном словосочетании, как Windows 98 SE, и вообще "съест" последний слог. Конечно, по сравнению с предыдущими версиями программы налицо значительный прогресс, но не настолько большой, чтобы пользователь мог сказать "вау!". Разумеется, что аббревиатурам и разнообразным сокращениям данный движок научить можно и даже нужно, но стоит ли это затраченных усилий? Полагаю, что нет, даже несмотря на абсолютную бесплатность программы.

Digit PC 1.0

Курс UI/UX дизайну від Mate academy.
На курсі ви навчитесь створювати інтуїтивно зрозумілі та привабливі інтерфейси вебсайтів і застосунків. Ви також освоїте ключові принципи дизайну та дізнаєтесь як виділятися на ринку. А ми вас не лише навчимо, а й працевлаштуємо. Сертифікат теж буде!
Дізнатися більше про курс
Digit PC 1.0
Shareware (15 дней trial, регистрация — $29)
Разработчик Elan Systems
Web-сайт www.digalo.com
Размер 7,8 MB (русская версия)
Страница загрузки www.digalo.com/digit_download.asp
+ Хорошее качество синтезируемой речи; не требует сторонних программ
- Русский модуль мог бы быть и лучше; платность
! Огромный прогресс по сравнению с бесплатными движками, но это еще далеко не потолок

Идейный последователь знаменитого коммерческого модуля Digalo от французской фирмы Elan Informatique. В активе Digit все основные языки и диалекты (английский, французский, бразильский португальский, американский английский, немецкий, польский, итальянский), а также русский, представленный мужским голосом, более известным в узких кругах как "Николай". Речь английских дикторов можно оценить на "четыре" — "отлично" мешает поставить "глотание" последних слогов и нечастые ошибки в ударениях. "Николай" тоже неплох, хоть и страдает некоторой гнусавостью и "зомбированностью" голоса. При желании привыкнуть к нему весьма легко, хотя, конечно, хотелось бы еще большего. Как и движки от Cepstral, Digit не требует для своей работы третьих программ — он уже интегрирован с оболочкой для чтения буфера обмена, и все, что требуется для ознакомления с литературой, так это нажать магическую комбинацию Ctrl + C и запустить сам Digit. Очень удобно и, кроме всего прочего, занимает минимум ценного рабочего пространства на экране. К сожалению, программа не бесплатна, и после 15-дневного испытательного срока перестанет работать.

ScanSoft RealSpeak

ScanSoft RealSpeak
Коммерческий продукт
Разработчик ScanSoft
Web-сайт www.scansoft.com
+ Близкий к идеалу уровень работы, в том числе и для русского языка
- Иногда прорывается некоторый гул
! Одна из лучших англоязычных и точно лучшая среди русскоязычных программа синтеза речи

Великолепный text-to-speech engine от создателей знаменитого Dragon NaturallySpeaking, просто не умеющих халтурно работать, — что и отразилось на общем уровне продукта. Электронные персонажи разговаривают почти естественно, и если бы не слабый эффект надрыва речи, иногда "всплывающий" на длинных фразах, то их вполне можно было бы спутать с живыми людьми. Вот что значит солидный словарь и запас фонем! Языков тоже поддерживается более чем достаточно — целых 21(!), включая даже такие экзотические, как китайский, норвежский и корейский. Русский представлен женским голосом "Катерина", причем работает он ничуть не хуже своих заграничных коллег и обеспечивает действительно отличное качество речи. Смущает лишь отсутствие пробной (trial) версии — увы, RealSpeak, распространяется только на коммерческой основе, но на сайте ScanSoft доступны интерактивные демо, благодаря которым можно "вживую" послушать каждый язык. А напоследок хочется отметить, что программа взята на вооружение многими ведущими IT-компаниями мира, такими как Ericsson, Elix и AMTELCO.

Elan SaySo 4.6 Evaluator

Elan SaySo 4.6 Evaluator
Коммерческий продукт; неограниченная по сроку действия демо-версия
Разработчик Elan Systems
Web-сайт www.elanspeech.com
Размер 30,4 MB
Страница загрузки www.elanspeech.com/
downloads/register2.asp
+ Великолепное качество синтезируемой речи
- Пока нет демо-версии для русского модуля; демонстрационные версии довольно сильно урезаны
! "Выбор редакции" среди англоязычных движков. Тем пользователям, которым требуется русскоязычный модуль, лучше обратиться к RealSpeak

Новые технологии не стоят на месте, и то, что сейчас доступно для персонального использования, зачастую просто не может сравниться с коммерческими продуктами для "большого бизнеса". Вот и фирма Elan Speech, недавно объединившаяся с не менее известной Babel Technologies, не остановилась на достигнутом и разработала принципиально новый продукт — Elan SaySo, который установил более высокую планку качества в области TTS. Претензий к акценту и интонации нет вообще — все настолько чисто и гладко, что не каждому человеку удастся такое воссоздать. Посторонний шум отсутствует как таковой, ударения располагаются там, где им предназначено природой, а дикция просто поражает воображение. И пожалуй, самым приятным фактом для отечественного пользователя является то, что бесплатные пробные версии программы можно совершенно легально скачать с официального сайта и пользоваться ими в свое удовольствие. Конечно, они весьма жестко ограничены по функциональности — поддерживается только *.txt, нельзя подключить их голосовой модуль к другой утилите, например "Говорилке", а также прочитать буфер обмена. Но текст в своем родном окне читается на "пять с плюсом", а лимит на его объем (25 тыс. символов) легко исправляется разделением большой книги на несколько частей. Жаль, правда, что пока отсутствует демо-версия русскоязычного модуля, хотя его поддержка и заявлена разработчиком.

Cepstral SwiftTalker 3.0

Cepstral SwiftTalker 3.0
Shareware (30 дней trial, регистрация — $29,95)
Разработчик Cepstral
Web-сайт www.cepstral.com
Размер 50 MB
Страница загрузки www.cepstral.com/cgi-bin/downloads
+ Достойное воспроизведение текста
- Нет русскоязычного модуля
! Один из лучших англоязычных модулей, предлагаемый по весьма разумной цене

В отличие от других подобных продуктов SwiftTalker — это не только "голый" TTS engine, но еще и оболочка, позволяющая задействовать все его возможности без применения третьих утилит. Пока в активе Cepstral LLC лишь американский и традиционный английский, а также немецкий и испанский. Правда, это с лихвой компенсируется просто огромным количеством дикторов — лишь для одного US English их насчитывается восемь, не отстают и другие языки. Да и качество их исполнения на высоте — речь близка к идеалу, нет никаких досадных завываний или помех, хотя иногда некоторые скачки интонации на концах слов все-таки прорываются. Неудивительно, что дистрибутив каждого голоса занимает целых 30 MB — как-никак, а словари и фонемные конструкции кое-что да весят! Что же касается оболочки SwiftTalker, то ее возможности вполне соответствуют стандартам этого класса утилит: чтение *.txt, *.rtf и *.doc, удобный интерфейс, а также запись синтезируемой речи в WAV-файл. В результате Cepstral SwiftTalker будет отличным выбором для пользователя, работающего в основном с англоязычной литературой — мало кто из конкурентов предложит сходные возможности по столь низкой цене.

Заключение

Несмотря на то что самое высокое качество синтеза речи все-таки обеспечивают коммерческие (а потому и малодоступные для отечественного пользователя) голосовые модули, даже среди shareware и freeware можно найти очень неплохие аналоги. Главное — уже сейчас процесс обучения вовсе не требует обязательного бдения перед компьютером. Достаточно всего лишь сесть в кресло, расслабиться и прислушаться к речи нашего железного помощника…

Disqus Comments Loading...