На Flickr появится каталог из 14 млн исторических изображений

Опубликовал
Володимир Скрипін

По данным источника, американский академик Калев Литару создает поисковую базу данных из 14 млн исторических изображений. Изображения датируются с 1500 до 1922 года – период, на который не распространяются ограничения в связи с авторским правом.

Господин Литару уже загрузил 2,6 млн из запланированных 14 млн фотографий на один из самых известных сервисов хранения и обмена фотографиями Flickr, где их можно легко отыскать благодаря автоматически добавленным тегам. Фотографии и рисунки были взяты из 600 млн страниц библиотечных книг, отсканированных некоммерческой организацией Internet Archive. До сих пор получить доступ к этим изображениям было достаточно непросто. По словам Калева Литару в большинстве проектов по оцифровке старых книг все внимание отводилось тексту, тогда как фотографии попросту игнорировались.

Онлайн-курс "Business English" від Laba.
Вивчіть базу граматики, лексики та вокабуляру.Використовуйте англійську в спонтанній розмові з колегами та клієнтами.Прокачайте її до впевненого В1 — для розвитку кар’єри в бізнесі.
Приєднатись до курсу

«На протяжении многих лет все библиотеки оцифровывали свои книги, но конвертировали их в PDF-файлы или текстовые документы» – рассказывает Калев Литару о своем проекте BBC. – «Они сосредоточились на книгах как на наборе слов. Этот проект меняет такой подход».

Господин Литару начал работать над проектом, исследуя коммуникационные технологии в джорджтаунском университете в Вашингтоне, в рамках гранта от компании Yahoo, являющейся владельцем сервиса Flickr. Для достижения поставленной цели была разработана программа для автоматического извлечения иллюстраций из миллионов книг в процессе OCR-сканирования, которое сейчас осуществляет Internet Archive.

Один из древнейших рисунков в коллекции, датированный 1502 годом.

Написанный господином Литару алгоритм не только позволил вернуться к ранним этапам сканирования и сохранить в формате JPEG те области страниц, которые были проигнорированы в процессе OCR-сканирования, но и добавить под каждым изображением подпись и часть текста, размещенного до и после изображения. После этого каждое изображение в формате JPEG с сопровождающим текстом из книги было размещено на новой странице Flickr, предоставляя общественности возможность исследовать огромный каталог древних иллюстраций с помощью встроенных инструментов поиска.

«Я думаю, что путешествие во времени через фотографии – одна из величайших возможностей, которой воспользуются пользователи» — сказал Калев Литару.

Каталог исторических изображений, который состоит из разнообразных пейзажей, иллюстраций по кулинарному делу, старых карт и разнообразных фотографий, от животных и транспортных средств до скульптур и зданий в различных городах, позволяет посмотреть с как менялось восприятие тех или иных вещей на временном отрезке продолжительностью 500 лет. Достаточно ввести в поиск термин, к котором у пользователя имеет определенный интерес и можно посмотреть, как та или иная вещь выглядела раньше.

«Наберите в поиск, к примеру, слово телефон, и вы увидите, что все картинки – это изображение бизнесменов, преимущественно мужчин» — объясняет Калев Литару. – «Затем вы увидите, как он превращается в инструмент, соединяющий семьи».

По словам Калева Литару, большинства иллюстраций, размещенных в книгах, нет ни в одной художественной галерее мира, а их оригиналы давно утеряны.

В рамках проекта оцифровано уже 600 млн страниц. Ожидается, что проект будет завершен в следующем году. Американский академик Калев Литару не скрывает своего желания связать его с известной интернет-энциклопедией Wikipedia.

Источник: BBC и Internet Archive

Disqus Comments Loading...