Общеизвестно, что Google уже довольно давно ведет разработку собственного пакета для распознавания отсканированного текста – OCRopus. Сейчас проект имеет альфа-статус и не представляет интереса для рядового пользователя. Однако ждать, пока созреет конкурент FineReader, не пришлось. В конце 2007 года компания Cognitive Technologies выпустила бесплатную версию программы CuneiForm V.12 и объявила о том, что ее продукт отныне получает статус open source.
Freeware, open source
Разработчик Cognitive Technologies
Сайт www.cuneiform.ru
Размер 33,38 МБ
Адрес загрузки www.cuneiform.ru… cuneiform.zip
Вердикт
Бесплатность; поддержка большого количества языков
Возможные проблемы с запуском; нестабильное качество распознавания
Система распознавания текста является шрифтонезависимой и поддерживает более 20 языков, среди которых украинский, русский и большинство европейских. Кроме того, программа умеет «читать» документы со смешанным текстом на русском и английском языках. CuneiForm автоматически находит такие элементы страницы, как таблицы и изображения. Если некоторые из них были определены неверно, стоит воспользоваться ручной разметкой, что повысит качество конечного электронного документа. В настройках программы есть специальные опции, улучшающие распознавание распечаток, сделанных на матричном принтере или присланных по факсу.
В документации к программе указано, что в ней заложены принципы самообучения, однако как именно они работают, узнать не удалось.
Для уменьшения количества ошибок процесс распознавания текста дополняется словарным контролем, после которого неверно определенные слова подсвечиваются другим цветом.
| Окно программы в режимах распознавания отдельных страниц и пакетном |
Источником текста может быть не только сканер, но и заранее сохраненные графические файлы (поддерживаются все популярные форматы). Приемлемое качество распознавания достигается при разрешении от 200 до 400 пикселов на дюйм. Для работы с большим количеством страниц существует отдельный модуль пакетной обработки, в нем есть опция автоповорота страницы, которая позволяет программе самостоятельно определять ориентацию текста. Также в пакетном режиме доступно автоматическое сохранение «прочитанных» документов сразу в несколько файлов разных типов.
На первый взгляд CuneiForm можно охарактеризовать словом «нестабильность» – в одних случаях программа без труда распознает 99–100% текста, в других абсолютно неправильно обрабатывает вплоть до четверти символов. Определенные проблемы вызвалo у CuneiForm и корректное нахождение картинок на странице, здесь может пригодиться функция авторазметки. Отметим, что с идентичными заданиями FineReader 9 во всех случаях справился отлично. Повышению эффективности работы способствуют давно известные «уловки» – увеличение контрастности документа и по возможности перевод его в черно-белый цветовой режим. Тогда качество распознавания текста может достигать 100%.
Стоит отметить, что скорость работы CuneiForm значительно превышает таковую у FineReader, однако это не очень радует, когда часть текста распознается неверно. Потому можем посоветовать программу тем, кто в основном имеет дело с документами, содержащими небольшое количество графики.
На текущий момент CuneiForm не устанавливается под операционную систему Windows Vista, причем проблема не в самом приложении, а в инсталляторе, и на официальном форуме есть ее решение. Там же обсуждаются и темы, связанные с портированием CuneiForm на Linux (хотя программа уже сейчас работает в этой ОС с помощью Wine) и Mac OS X. Планируется интеграция с OpenOffice.org, добавление поддержки новых форматов входных и выходных файлов, распознавание скриншотов.
Учитывая бесплатность продукта, а также возлагая большие надежды на open source community, будем с нетерпением ждать выхода следующей версии приложения, в котором в первую очередь хотелось бы увидеть улучшенное качество распознавания.
После релиза OCR от Google, запланированного на осень 2008 года, мы постараемся провести сравнительный анализ качества работы FineReader, OCRopus и CuneiForm.
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.