Практикум: форматы электронных книг

На удивление, для такой достаточно простой вещи, как электронная книга, придумано огромное количество разных форматов. Порой кажется, что каждый производитель устройств для их чтения считает своим долгом придумать здесь что-то свое. Чем же они отличаются друг от друга, какие ридеры что понимают и что делать, если ваша «читалка» не способна открыть нужный файл – обо всем этом в статье.

КАКИЕ БЫВАЮТ ФОРМАТЫ

AZW
Фирменный формат Amazon, используемый им в своих ридерах семейства Kindle (AZW предположительно расшифровывается как Amazon Word). Основан на стандарте Mobipocket (разработчика которого Amazon приобрела в 2005 г.) и практически полностью его повторяет, за исключением нюансов вроде отсутствия поддержки JavaScript и использования компрессии. Книги в AZW могут быть как с DRM-защитой, так и без нее. Защита привязывает книгу к аккаунту, с которого была совершена покупка, поэтому прочитать ее можно будет на всех устройствах, связанных c ним (всего на одном аккаунте может находиться до шести устройств). Формат AZW поддерживает использование дополнительных файлов, в которых хранятся закладки, цитаты, прогресс чтения и некоторые другие метаданные.

Кроме того, недавно появилась новая версия формата – AZW4, на данный момент используемая только в программных ридерах для Windows и Mac, в будущем его добавят и в ридеры на мобильных платформах. По своей сути это PDF, и Amazon называет его «Print Replica», имея в виду, что это точная копия печатной страницы. Кроме обычной функциональности формата PDF, AZW4 также поддерживает уникальные возможности Kindle – аннотации, синхронизацию чтения между разными устройствами и т.д.

BBeB (.lrf; .lrx)
Broadband eBooks, или BBeB – формат, разработанный Sony для своих ридеров по спецификациям формата Xylog XML. Расширение LRF предназначено для незащищенных документов, LRX – соответственно, для файлов с DRM-защитой. Летом 2010 г. Sony отказалась от применения этого формата в своем онлайновом магазине в пользу ePub, и последняя на данный момент модель ридера, PRS-T1, также не поддерживает формат BBeB.

CHM
Полное название – Microsoft Compiled HTML Help. Проприетарный формат контекстной справки от Microsoft, основанный на HTML. В отличие от последнего, может содержать в одном файле набор страниц и графических изображений. В контексте электронных книг может быть интересен в основном как формат, используемый для хранения какой-либо документации, поскольку обычные книги в нем не распространяются. Разновидностью CHM является формат LIT (сокращение от literature), используемый в ПО Microsoft Reader (поддержка которого, а также использование формата LIT, будет прекращена в августе 2012 г.)

DjVu
Формат предназначен для хранения сканированных документов. Благодаря сложным алгоритмам обработки, разделяющих текст и графику в различные слои с разными методами компрессии, удается достичь небывалой степени сжатия – при сопоставимом с PDF качестве документ в DjVu будет в 10 раз меньше. Это делает DjVu оптимальным вариантом для хранения больших массивов технической документации с графическими иллюстрациями. Стоит отметить, что при наличии в таком файле текстового слоя пользователю будет доступен полноценный поиск по документу. Если же используется только один графический слой, такой вариант формата называется IW44, и некоторые ридеры отдельно указывают его в списке поддерживаемых – хотя на самом деле любое устройство, способное открыть DjVu-документ, не испытает никаких проблем с IW44-файлами.

ePub
Название является сокращением от electronic publication. Открытый формат, разработанный Международным форумом по цифровым публикациям (International Digital Publishing Forum). ePub основан на XHTML и XML с опциональным использованием таблицы стилей CSS. Формат разрабатывался для документов с плавающей версткой, что позволяет адаптировать отображение книг к экранам различных устройств. ePub пришел на смену предыдущему стандарту данной организации — Open eBook. Контейнер ePub является на самом деле Zip-архивом с расширением .epub – в нем находятся тексты в форматах xHTML, HTML или PDF. Также контейнер может содержать файлы с графикой, в том числе векторной, и встроенные шрифты. Последняя на сегодня версия 3.0 призвана устранить недостатки, за которые ePub критиковали ранее – недостаточную приспособленность формата для использования в книгах с фиксированной версткой, отсутствие поддержки математических выражений MathML и ряд других.

На данный момент ePub является наиболее распространенным форматом и поддерживается почти всеми современными ридерами (за исключением разве что Amazon Kindle). Стандарт ePub позволяет включать в файл DRM-защиту, при этом спецификация не ограничивает издателя в ее выборе.

FB2
FB2, или FictionBook version 2, основан на формате XML. По словам разработчика, основными задачами при его создании были полное сохранение структуры документа с возможностью легкого (в идеале – автоматического) преобразования в другие форматы и точное отображение на любом устройстве. Отличием от остальных форматов является именно упор на сохранение структуры, а не внешнего вида – FB2 не определяет, как документ будет отображаться на различных устройствах или выводиться на печать, вместо этого применяются специальные элементы для указания различных частей книги, как-то цитаты, эпиграфы, стихи и т.д. Книга в FB2 хранится в одном XML-файле – включенные в нее изображения преобразуются в систему Base64 и вставляются в него с помощью специального тега, что несколько увеличивает размер файла.

Формат разработан в России, неудивительно поэтому, что особую популярность он заслужил именно в русскоязычной среде – его поддержка присутствует у всех ридеров локальных брендов, кроме того, ряд онлайновых библиотек и магазинов Рунета предлагают книги в FB2.

В конце 2008 г. появилась первая информация о разработке следующей версии формата, FictionBook 3.0, однако дальше его описания дело, похоже, так и не пошло, хотя возможности выглядели достаточно перспективно (использование стандарта Open Packaging Convention, контейнер в виде Zip-архива с отдельными файлами для текста, изображения и метаданных и т.д.).

KF8
Новый формат электронных книг, разработанный Amazon для своего планшета Kindle Fire (аббревиатура расшифровывается незамысловато – Kindle Format 8). KF8 основан на ePub, использует базу данных Palm (при этом база MOBI в файле также присутствует для сохранения обратной совместимости) и фирменную DRM-защиту. Преимуществом KF8 является расширенная функциональность – так, он поддерживает HTML5-теги, элементы CSS3, встроенные шрифты (спасибо ePub), систему всплывающего текста и ряд других возможностей. Сам Amazon заявляет, что KF8 пришел на смену Mobi – это позволяет предположить, что перевод на данный формат и традиционных ридеров на электронной бумаге Kindle лишь дело времени.

MOBI
Формат, используемый в бесплатном ПО MobiPocket Reader (доступен под Windows, а также на мобильных платформах: BlackBerry, PalmOS, Symbian и Windows Mobile). Основным «потребителем» книг в формате MOBI является семейство ридеров Amazon Kindle, у которых это, по сути, единственный неродной поддерживаемый формат. Книги в MOBI могут быть с расширениями .mobi и .prc (второе было введено из-за ограничений PalmOS на используемые расширения). Изначально формат MOBI был основан на формате PalmDOC, в который добавили некоторые HTML-теги, впоследствии появилась новая версия, использующая более высокую степень компрессии данных. В последнее время при добавлении новых функций создатель следует стандарту Open eBook. При этом у MOBI есть достаточно большое количество ограничений на форматирование, в первую очередь касательно отступов текста, а также вставленных в текст изображений и таблиц.

PDF
Разработанный Adobe в далеком 1993 г. формат Portable Document Format, или сокращенно PDF, отлично подходит для современных устройств для чтения книг. Изначально формат разрабатывался для печати, поэтому полностью описывает то, как документ должен выглядеть – включая размер бумаги, виды шрифтов (которые могут включаться в состав документа) и т.д. Кроме текста, PDF может содержать векторную и растровую графику, а также метаданные. Именно с помощью PDF пользователи ридеров могут добавлять недостающую в их устройствах функциональность, вроде альтернативных шрифтов, переносов в русском тексте и т.д.

Основная проблема PDF-файлов, не оптимизированных для устройств с маленьким экраном – проблемы с чтением страниц, создававшихся, как правило, под разрешение мониторов (в первую очередь это касается PDF-версий журналов, а также технической литературы). В таком случае пользователю приходится то и дело переключаться с просмотра всей страницы целиком на увеличенный участок. Некоторые ридеры поддерживают функцию reflow, позволяющую менять верстку в зависимости от размера экрана и степени масштабирования, однако работает она, как правило, не лучшим образом.

КАКИЕ ФОРМАТЫ ПОДДЕРЖИВАЮТСЯ РАЗЛИЧНЫМИ РИДЕРАМИ

Поддержка форматов в разных моделях осуществляется по-разному, но основная тенденция такова: как правило, крупные бренды, имеющие к тому же собственный сервис цифровой дистрибуции книг, ограничиваются минимальным джентльменским набором, включающим свой основной формат плюс наиболее популярные документы – PDF, TXT. С их точки зрения, больше пользователю все равно ничего не понадобится, ведь все книги он будет покупать в фирменном магазине. Если же производитель не привязывает свой ридер к какому-то определенному сервису, поддержка форматов у него будет, скорее всего, гораздо более обширная.

Некоторые популярные модели ридеров и список поддерживаемых ими форматов:

Amazon Kindle 4AZW, MOBI, PDF, PRC, TXT
Barnes & Noble Nook Simple TouchEPUB, PDF
Ergo Book 0604RCHM, EPUB, FB2, HTML, PDB, PDF, RTF, TXT
Impression ImBOOK 0311EPUB, FB2, HTML, LRC, MOBI, PDF, RTF, TXT, PDB
iRiver Story HD EB07DJVU, DOC, DOCX, EPUB, FB2, PDF, TXT
Kobo Touch eReaderEPUB, HTML, MOBI, PDF, RTF, TXT
lBook eReader V60CHM, DJVU, DOC, EPUB, FB2, HTML, LIT, MOBI, PDB, PDF, PRC, RTF, TXT
PocketBook Pro 612CHM, DJVU, DOC, DOCX, EPUB, FB2, HTML, IW44, IW4, MOBI, PDF, PRC, RTF, TCR, TXT
PocketBook 360 PlusCHM, DJVU, DOC, DOCX, EPUB, FB2, HTML, PDF, PRC (mobi), RTF, TCR, TXT
Prestigio PER5162CHM, DJVU, DOC, EPUB, FB2, HTML, MOBI, PDB, PDF, RTF, TXT
Qumo Libro IICHM, DJVU, DOC, EPUB, FB2, HTML, MOBI, PDB, PDF, RTF, TXT
Sony Reader Wi-Fi PRS-T1EPUB, PDF, TXT
Wexler Book E5001CHM, DJVU, DOC, EPUB, FB2, HTML, PDF, RFT, TXT

ЧЕМ КОНВЕРТИРОВАТЬ КНИГИ

Как видим, форматов много, ридеров тоже, и далеко не все ридеры понимают все или хотя бы бОльшую часть форматов. Что же делать, если у вас появилась книга в формате, с которым ваш ридер незнаком? Воспользоваться конвертером. Их тоже существует достаточное количество, однако безусловным лидером является Calibre, (см. наш обзор) – хоть он и позиционируется разработчиком как «ультимативное решение для всех задач, связанных с электронными книгами», в первую очередь это все же именно отличное средство для конвертирования книг в различные форматы.