ITC Publishing | технологии для человека

 

Google: Unicode используется практически на 50% сайтов

29 январяGoogle  Интернет  Сайты

Полтора года назад Google отмечала тот факт, что Unicode-кодировка стала встречаться в Интернете чаще чем любая другая. Темпы роста универсальной кодировки с тех пор продолжали расти.

Напомним, что кодировки представляют собой таблицы (матрицы), в которых определенный элемент привязан к соответствующему символу языка (букве, цифре, знаку препинания, специальному символу и так далее), поэтому когда браузер использует неправильную таблицу, то вместо необходимых знаков отображаются странные символы, знаки вопроса и так далее.

Обычно таблицы кодировки не очень велики и содержат достаточно места лишь для одного или нескольких языков, однако Unicode рассчитан на возможность хранения информация о всех часто используемых символах и при этом содержит в себе зарезервированное место, которое можно будет применять в будущем. Всего в таблице Unicode может быть зашифровано 65536 символов.

Приблизительно 10 лет назад самой распространенной кодировкой в Интернете явлалась таблица ASCII, а около 5 лет назад начался стремительный взлет Unicode. Сейчас эта кодировка не только в 2 с лишним раза опережает своих ближайших конкурентов, но и используется практически на 50% сайтов. Данная статистика получена с помощью анализа страниц, индексируемых Google.

Отметим, что недавно была принята новая редакция Unicode версии 5.2, в которой были добавлены более 6 600 новых символов.

+11
  • 11 голосов
  • 10289 просмотров

Рекомендоватьновость

+ -

Комментарии
zmeuka

zmeuka |offline 30 января 2010 г., 23:33

Неправильно о количестве символов.
Вообще Unicode (Universal Character Set) подразумевает использование до 2147483648 символов.
Упомянутый на графике Google вариант UTF-8 использует последовательности до 4 байт на символ, позволяя кодировать до 1114112 символов.
Ограничение в 65536 символов есть только у двухбайтовой кодировки UCS-2, которая применяется, например, для передачи SMS в мобильниках. Но это - не совсем Unicode, а только огрызок, и в вебе он почти не представлен.


Чтобы оставить комментарий, необходимо войти или зарегистрироваться

 

Сейчас на сайте посетителей:2656