Общеизвестно, что Google уже довольно давно ведет разработку собственного пакета для распознавания отсканированного текста – OCRopus. Сейчас проект имеет альфа-статус и не представляет интереса для рядового пользователя. Однако ждать, пока созреет конкурент FineReader, не пришлось. В конце 2007 года компания Cognitive Technologies выпустила бесплатную версию программы CuneiForm V.12 и объявила о том, что ее продукт отныне получает статус open source.

OCR CuneiForm V.12

Freeware, open source

Разработчик Cognitive Technologies

Сайт www.cuneiform.ru

Размер 33,38 МБ

Адрес загрузки www.cuneiform.ru… cuneiform.zip

Вердикт

Бесплатность; поддержка большого количества языков

Возможные проблемы с запуском; нестабильное качество распознавания

Система распознавания текста является шрифтонезависимой и поддерживает более 20 языков, среди которых украинский, русский и большинство европейских. Кроме того, программа умеет «читать» документы со смешанным текстом на русском и английском языках. CuneiForm автоматически находит такие элементы страницы, как таблицы и изображения. Если некоторые из них были определены неверно, стоит воспользоваться ручной разметкой, что повысит качество конечного электронного документа. В настройках программы есть специальные опции, улучшающие распознавание распечаток, сделанных на матричном принтере или присланных по факсу.

В документации к программе указано, что в ней заложены принципы самообучения, однако как именно они работают, узнать не удалось.

Для уменьшения количества ошибок процесс распознавания текста дополняется словарным контролем, после которого неверно определенные слова подсвечиваются другим цветом.

Окно программы в режимах распознавания отдельных страниц и пакетном

Источником текста может быть не только сканер, но и заранее сохраненные графические файлы (поддерживаются все популярные форматы). Приемлемое качество распознавания достигается при разрешении от 200 до 400 пикселов на дюйм. Для работы с большим количеством страниц существует отдельный модуль пакетной обработки, в нем есть опция автоповорота страницы, которая позволяет программе самостоятельно определять ориентацию текста. Также в пакетном режиме доступно автоматическое сохранение «прочитанных» документов сразу в несколько файлов разных типов.

На первый взгляд CuneiForm можно охарактеризовать словом «нестабильность» – в одних случаях программа без труда распознает 99–100% текста, в других абсолютно неправильно обрабатывает вплоть до четверти символов. Определенные проблемы вызвалo у CuneiForm и корректное нахождение картинок на странице, здесь может пригодиться функция авторазметки. Отметим, что с идентичными заданиями FineReader 9 во всех случаях справился отлично. Повышению эффективности работы способствуют давно известные «уловки» – увеличение контрастности документа и по возможности перевод его в черно-белый цветовой режим. Тогда качество распознавания текста может достигать 100%.

Стоит отметить, что скорость работы CuneiForm значительно превышает таковую у FineReader, однако это не очень радует, когда часть текста распознается неверно. Потому можем посоветовать программу тем, кто в основном имеет дело с документами, содержащими небольшое количество графики.

На текущий момент CuneiForm не устанавливается под операционную систему Windows Vista, причем проблема не в самом приложении, а в инсталляторе, и на официальном форуме есть ее решение. Там же обсуждаются и темы, связанные с портированием CuneiForm на Linux (хотя программа уже сейчас работает в этой ОС с помощью Wine) и Mac OS X. Планируется интеграция с OpenOffice.org, добавление поддержки новых форматов входных и выходных файлов, распознавание скриншотов.

Учитывая бесплатность продукта, а также возлагая большие надежды на open source community, будем с нетерпением ждать выхода следующей версии приложения, в котором в первую очередь хотелось бы увидеть улучшенное качество распознавания.

После релиза OCR от Google, запланированного на осень 2008 года, мы постараемся провести сравнительный анализ качества работы FineReader, OCRopus и CuneiForm.