Теперь Google индексирует даже сканированные документы

Компания Google, недавно обновившая поиск по блогам, объявила о том, что теперь в результатах поиска будут также присутствовать отсканированные документы. Внесение такого функционала в Google Search потребует немалых вычислительных мощностей и необходимость применения продвинутых технологий распознавания изображений. В отличие от стандартных текстовых документов, сканированные файлы не содержат никакой текстовой информации, которую могут индексировать поисковые «пауки» Google. Соответственно для извлечения необходимых сведений была применена технология оптического распознавания символов (Optical Character Recognition Technology), превращающая запечатленный на фотографиях текст в цифровые текстовые файлы.

В прошлом поисковик Google мог ориентироваться лишь по названию файла и включенным в него метаданным, но не по его реальному содержанию. Теперь же в результатах поиска будет представлен текст, извлеченный из сканированных файлов. При необходимости его можно просмотреть в оригинальной форме или в конвертированном текстовом варианте.