Для того чтобы перейти к числам, в Google сначала определились с тем, что можно считать книгой. Не усложняя, в компании решили считать книгой страницы с текстом, собранные в одном переплете. Определение не идеальное, но очень простое и хорошо подходит для выбранной цели.
В компании не стали использовать ISBN идентификаторы, уникальные номера, закрепленные за каждой книгой, поскольку такой способ маркировки используется лишь последние 30-40 лет и более распространен в западных странах. Поэтому в Google собирали информацию из крупнейших библиотек мира (Library of Congress, WorldCat и других) для анализа. В результате было получено около 1 млрд кандидатов на звание книг. После этого, используя множество алгоритмов, в компании отсеяли дубликаты, и кандидатов осталось всего 210 млн.
Затем в базе были также найдены записи о различных вещах, не имеющих отношения к книгам: формы для заполнения, аудиозаписи, карты и видео, имеющие ISBN-номера. После их удаления осталось всего 146 млн книг.
В самом конце были отсеяны еще 16 млн правительственных документов, после чего и была получена цифра 129,8 млн книг, которую в Google и считают сейчас окончательной.
Поскольку каждый день выходят новые книги, то через определенные промежутки времени информация о количестве книг будет обновляться. И естественно, она обновится, если Google посчитает, что используемые сейчас алгоритмы поиска можно улучшить.
Напомним, что ровно год назад Google Books начал предлагать для свободного скачивания около 1 млн электронных книг, которые доступны для бесплатного копирования, поскольку не имеют никаких ограничений на распространение.