«Словники України»: первая ласточка

В наши дни появление нового электронного словаря вряд ли
кого-нибудь удивит. Поэтому, когда в редакцию попал диск "Словники Украiни",
мы вначале отнеслись к нему с умеренным интересом: с одной стороны, это первая
подборка словарей украинского языка на CD, с другой — специализированный, нишевый
продукт. Однако со временем выяснилось, что он скрывает в себе несколько "изюминок"…


Диск "Словники Украiни" разработан специалистами Украинского языково-информационного
фонда, созданного еще в 1991 г. и имеющего статус научно-исследовательского института
при Академии наук Украины. Первоначально эта организация занималась вопросами
лексикографии, а также составлением специализированных словарей, выходивших в
серии "Словники Украiни".

При подготовке изданий большое внимание уделялось автоматизации процесса их составления,
для чего был проведен ряд фундаментальных исследований по компьютерной лингвистике.
Так, еще для первого орфографического словаря разработали формальную теорию классификации
способов словоизменения в украинском языке и соответствующую алгоритмическую базу,
которая позволила на основе исходной формы автоматически получать все остальные
словоформы. Первоначально были определены 280 парадигматических классов, но к
сегодняшнему дню более глубокие исследования дали возможность вывести их около
1500 и таким образом охватить весь словарный запас литературного украинского языка.

В августе 1999 г. был подписан указ Президента Украины "Про розвиток нацiональноi
словниковоi бази", а Украинский языково-информационный фонд определен в качестве
ведущей организации по проекту "Словники Украiни". Он получил инновационный
заем для реализации программы создания электронного эквивалента подготовленных
им печатных словарей. Результатом работ по этой программе и стал диск, который
мы держим в руках.

CD "Словники Украiни" содержит пять электронных словарей: "Парадигма",
"Транскрипция", "Фразеология", "Синонимия" и "Антонимия".
Первый, по сути, представляет собой расширенный орфографический словарь, более
удобный и функциональный, чем традиционный, так как позволяет одновременно просмотреть
все словоформы для выбранной лексической единицы. "Транскрипция", как
нетрудно догадаться, построена на базе орфоэпического словаря, а три последних
модуля имеют одноименные печатные эквиваленты. Самым большим, как и следовало
ожидать, оказался орфографический словарь — 120 тыс. реестровых единиц. Объем
других модулей существенно меньше.

Примечательно, что словарная база в "Словниках Украiни" полносвязная
— в тексте любой статьи каждое слово является ссылкой на соответствующие статьи
в других словарях. Работает и обычная для электронных словарей система поиска.
При этом алгоритм парадигматического анализа безошибочно восстанавливает начальную
форму, благодаря чему "Словники…" выгодно отличаются от многих электронных
словарей по точности поиска. Кстати, подобные алгоритмы уже довольно давно известны
в компьютерной лингвистике. В частности, они неплохо реализованы в российских
системах машинного перевода семейства PROMT. Однако опыт работы с этими программами
показывает, что отечественная разработка ищет и синтезирует словоформы более точно.

В рамках государственного заказа будут изготовлены 20 тыс. экземпляров диска "Словники
Украiни", но фонд планирует увеличить общий тираж до 30 тыс. К сожалению,
из-за недавнего закрытия нескольких украинских предприятий по производству CD
возникли некоторые трудности с размещением заказа, да и стоимость тиражирования
существенно возросла. Значительную часть дисков предполагается распределить по
учебным заведениям, библиотекам Украины и другим государственным учреждениям.
Руководство фонда также надеется, что "Словники Украiни" появятся в
розничной продаже, но партнеры, которые занялись бы коммерческим распространением,
пока не найдены.

Диск с пятью электронными словарями украинского языка — всего лишь первый шаг
в реализации комплексного плана развития украинской компьютерной лингвистики,
где ключевую роль играет Украинский языково-информационный фонд. В недалеком будущем
должна появиться электронная версия существенно доработанного и расширенного толкового
словаря украинского языка, еще ряд специальных справочных изданий, а к 2007 г.
— семь полноценных систем машинного перевода с украинского на основные европейские
языки. Есть еще целый ряд интересных проектов по распознаванию и синтезу речи,
разработке пользовательского интерфейса нового поколения с командами на естественном
языке и по другим перспективным направлениям.