Обзоры Обзоры 16.04.2002 в 21:00 comment

ABBYY FineReader 6.0

author avatar
https://secure.gravatar.com/avatar/2f8d57cddfeb455ba418faa11ee01bb0?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/2f8d57cddfeb455ba418faa11ee01bb0?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

ITC.UA

автор


Программные продукты компании ABBYY в особом представлении не нуждаются. Благодаря своему отличному качеству и великолепному интерфейсу в той нише, которую они занимают (напомним, что это в первую очередь распознавание текста и лингвистические технологии), конкурентов у них практически нет. Но такие высокие показатели не даются даром и прежде всего достигаются за счет тщательной доводки ПО до нужного уровня еще на стадии разработки.


Именно поэтому очередного обновления популярного пакета FineReader пришлось ожидать без малого почти два года. Конечно же, такое событие наш еженедельник не мог оставить без внимания, и как только шестая версия программы появилась у нас в редакции, мы сразу же представляем на суд читателя ее обзор, соединив личные впечатления с информацией разработчиков.

ABBYY FineReader 6.0
Цена пакета FineReader Professional — $129, FineReader Corporate — $299 (дополнительная лицензия — $135). Продукты предоставлены компанией "ABBYY Украина", www.abbyy.com.ua

Количество изменений как внешних, сразу заметных пользователю, так и внутренних, повышающих качество работы пакета, вполне оправдывает новую "круглую" цифру в номере версии. Однако начать стоит, пожалуй, именно с нововведений в "сердце" программы — алгоритмов распознавания.

Помимо усовершенствования прежних методов, теперь FineReader использует в работе еще две технологии, получившие названия адаптивной бинаризации и фильтрации текстур. Обе они направлены на улучшение распознавания "проблемных" документов, где текст расположен на цветном фоне или же имеет яркостные дефекты, образовавшиеся при передаче по факсу или в силу других причин.

И если в предыдущих версиях пакет работал лишь с документами, заранее приведенными к однобитовому растровому формату, то теперь предпочтительным источником являются цветные или полутоновые сканированные оригиналы. Механизм адаптивной бинаризации сам определяет для каждой строки текста необходимые параметры (яркость и контрастность), с тем чтобы после приведения к режиму Black & White он стал как можно более четким. После этого вступает в дело алгоритм фильтрации текстур — он анализирует содержимое документа и удаляет из него мелкие точки, оставляя лишь большие заполненные массивы, которые предположительно могут оказаться символами. Небольшой тест показал, что обновленный пакет справляется с такими документами если и не идеально, то уж по крайней мере существенно лучше FineReader 5.0.

Значительно усовершенствована и система предварительного редактирования распознанных страниц. Внутренний редактор теперь представляет собой не просто окно редактирования текста, а полноценное WYSIWYG-пространство, где отображается точный макет комплексного итогового документа (например, многоколоночный текст, отдельные текстовые блоки и т. д.). Любое изменение конфигурации блоков в окне, где показано структурное разделение распознаваемой страницы, тут же приводит к изменению внешнего вида в окне редактора. Таким образом можно производить визуальный контроль без утомительного экспорта в другие приложения.

Курс Job Interview Crash Course від Enlgish4IT.
Отримайте 6 шаблонів відповідей на співбесіді, які ви зможете використовувати для структурування своїх відповідей. Отримайте знижку 10% за промокодом ITCENG.
Приєднатися

Кстати, значительно расширился список визуальных и оформительских элементов, которые точно передаются FineReader. Так, например, изображения со сложной формой и непрямоугольным путем обтекания больше не поставят пакет в тупик — все они "попадут" в финальную версию распознанного документа. Разработчики также делают особый акцент на прецизионном подборе параметров шрифтов, таких, как межбуквенное и межстрочное расстояние, — это позволяет очень точно передавать макет оригинального документа, сохраняя длины строк в многоколоночном тексте без изменений. К приятным "мелочам" относятся распознавание маркированных и нумерованных списков (для форматов MS Word или RTF), улучшенное распознавание таблиц (сохранение выравнивания текста в отдельных ячейках) и многое другое.

Впрочем, вполне возможно, что с последней версией пакета для большинства офисных нужд вообще отпадет необходимость в экспорте распознанного документа. Судите сами — внутренний редактор по своей функциональности приближается к профессиональному инструменту, а новые опции печати как исходного документа, так и финального вполне перекрывают задачи типа "распознать — поправить — распечатать".

Широкое распространение формата PDF в качестве стандарта для обмена электронными документами и отсутствие массовых и доступных средств для его редактирования также привлекло внимание компании ABBYY. Новая версия FineReader позволяет не только сохранять макет документов в данном формате, но и распознавать его. Благодаря этой возможности любой пользователь пакета может открыть PDF, внести собственную правку и снова сохранить его в этом же или в одном из других доступных форматов. Правда, FineReader в данном случае поступает, как настоящий герой, то бишь — идет в обход: перед распознаванием с помощью бесплатной утилиты PDF2BMP превращает файл в растровое изображение и далее работает, как обычно.

Еще одно усовершенствование — для корректной передачи многоязычных документов вместе с пакетом теперь поставляется набор шрифтов Type 1 нескольких основных типов с расширенной таблицей символов. Это позволяет избежать проблем с файлами PDF, создаваемыми прошлой версией пакета. Кроме этого, доработана функция экспорта в HTML — с помощью технологии CSS 2.0 FineReader значительно точнее сохраняет исходный макет документа.

Существенно модифицирован пользовательский интерфейс. Настраиваемые панели инструментов позволяют вынести наиболее часто используемые функции и убрать ненужные, а тесная интеграция с оболочкой Windows — изменять состав пакета прямо из окна Explorer, например добавлять изображения с помощью контекстного меню. Папка с файлом пакета FineReader отличается от других благодаря собственной пиктограмме.

Курс Job Interview Crash Course від Enlgish4IT.
Отримайте 6 шаблонів відповідей на співбесіді, які ви зможете використовувати для структурування своїх відповідей. Отримайте знижку 10% за промокодом ITCENG.
Приєднатися

Обновление пакета ABBYY поставляется в трех вариантах: FineReader Professional, FineReader Corporate Edition и версия для разработчиков — FineReader Scripting Edition, включающая в себя развитые средства автоматизации процесса документооборота на основе этого пакета.

Вместе со всеми версиями поставляется дополнительная утилита FormFiller, с помощью которой можно организовать процесс ввода стандартизированных бланков с последующим сохранением информации в базе данных. Для этого перед началом работы необходимо создать шаблон (или отсканировать его), произвести разметку полей ввода, указать их тип, а также выходной файл.

Кроме вышеуказанных модификаций, Corporate Edition имеет ряд собственных новых функций. Конечно же, в первую очередь это ориентация на работу в распределенной среде — сетевая инсталляция, возможность разделения процессов, когда FineReader, запущенный на любой из сетевых машин в фоновом режиме, автоматически подхватывает невыполненные задачи на любом из других компьютеров, позволяет организовать целый "конвейер", где сканированием, распознаванием и проверкой занимаются различные хосты. Для стимуляции построения таких систем предусмотрена гибкая система лицензирования. По умолчанию Corporate Edition поставляется с двумя лицензиями, но это накладывает ограничения не на количество инсталляций пакета, а лишь на число одновременно запущенных копий.

Также корпоративный вариант имеет дополнительные функциональные возможности — например полнотекстовый морфологический поиск (с ним FineReader превращается уже в своего рода несложную базу данных документов) или же распознавание штрих-кодов. Модуль разделения книжного разворота на две отдельные страницы, присутствовавший еще в прошлой версии пакета, достиг своего логического апогея — теперь с его помощью отсканированное изображение "разрезается" на любое количество частей. Разработчиками такая возможность позиционируется в основном для сканирования визиток — их разбивка на отдельные страницы, а также последующая коррекция углов наклона происходит в автоматическом режиме.

Ну и, конечно, наличие разделяемых пользовательских словарей, возможности по построению собственных языковых шаблонов, интеграция с системами документооборота посредством интерфейса протокола ODMA (Open Document Management Access) делают FineReader действительно незаменимым инструментом там, где необходимо организовать эффективную коллективную работу над большим количеством документов.

Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: