В Google Docs добавили распознавание PDF и изображений

В Google Docs добавили новую возможность распознавания текста на некоторых типах документов. Функция работает с PDF файлами или обычными изображениями.

Пока при распознавании наблюдаются некоторые проблемы с точностью, а особенно с форматированием, в случае если на странице используются колонки, переносы и другие элементы оформления. Важно, что функция работает не только с английским языком. Точный список уточнить пока не удалось, но по крайней мере русский язык точно поддерживается.

Функция распознавания находится на экране загрузки новых документов. Если отметить соответствующий пункт, то при открытии нового документа он будет загружен уже в редактируемом варианте.

Новая система скорее всего использует код проекта Ocropus, разрабатываемого с 2007 года и спонсируемого Google. На данный момент доступна альфа-версия Ocropus 0.4.3 для Linux и Mac OS X и в перспективе проект должен развиться в полноценное приложение для всех основных операционных систем, а сейчас  используется, к примеру, в Google Book Search.

Напомним, что ABBYY также запустила онлайновый сервис FineReader Online для распознавания документов, однако он работает c ограничением (50 страниц в день).