Новости Новости 26.10.2007 в 15:34 comment

Представлена альфа-версия ПО Google для распознавания текстов

author avatar
https://secure.gravatar.com/avatar/2f8d57cddfeb455ba418faa11ee01bb0?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/2f8d57cddfeb455ba418faa11ee01bb0?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

ITC.UA

автор

Компания Google официально представила альфа-версию программного пакета OCRopus, предназначенного для оптического распознавания (Optical Character Recognition, OCR) текстовых документов. Утилита построена на базе OCR-алгоритма Tesseract c открытым кодом, работает под операционными системами Linux и распространяется по лицензии Apache License 2.0, сообщает сайт Ars Technica.

Представленная версия OCRopus не лишена ошибок: в частности, очень часто буква «e» распознается как «c», а буква «о» регулярно заменяется цифрой 0. По наблюдениям источника, программа лучше справляется со сканированием текстов, набранных шрифтами без засечек (sans serif); кроме того, на эффективности ее работы положительно сказывается увеличенный размер символов.

Впрочем, по утверждению разработчиков, все это — особенности именно альфа-версии, где приоритет делается на поиске оптимальной функциональности. Улучшением качества и скорости работы OCRopus займутся уже на следующем этапе, этапе бета-тестирования, начало которого пока запланировано на первый квартал 2008 года.

Выход Google на рынок OCR-систем связан с интересом поискового гиганта к оцифровке печатных документов — книг и старинных рукописей, газет и журналов, архивных записей и т.д. При этом модульный подход, применяющийся в OCRopus (и, в частности, поддержка Lua), способен обеспечить интерес к этой программе и со стороны неанглоязычной аудитории.


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: