Для того чтобы перейти к числам, в Google сначала определились с тем, что можно считать книгой. Не усложняя, в компании решили считать книгой страницы с текстом, собранные в одном переплете. Определение не идеальное, но очень простое и хорошо подходит для выбранной цели.
В компании не стали использовать ISBN идентификаторы, уникальные номера, закрепленные за каждой книгой, поскольку такой способ маркировки используется лишь последние 30-40 лет и более распространен в западных странах. Поэтому в Google собирали информацию из крупнейших библиотек мира (Library of Congress, WorldCat и других) для анализа. В результате было получено около 1 млрд кандидатов на звание книг. После этого, используя множество алгоритмов, в компании отсеяли дубликаты, и кандидатов осталось всего 210 млн.
Затем в базе были также найдены записи о различных вещах, не имеющих отношения к книгам: формы для заполнения, аудиозаписи, карты и видео, имеющие ISBN-номера. После их удаления осталось всего 146 млн книг.
В самом конце были отсеяны еще 16 млн правительственных документов, после чего и была получена цифра 129,8 млн книг, которую в Google и считают сейчас окончательной.
Поскольку каждый день выходят новые книги, то через определенные промежутки времени информация о количестве книг будет обновляться. И естественно, она обновится, если Google посчитает, что используемые сейчас алгоритмы поиска можно улучшить.
Напомним, что ровно год назад Google Books начал предлагать для свободного скачивания около 1 млн электронных книг, которые доступны для бесплатного копирования, поскольку не имеют никаких ограничений на распространение.
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.