Google: Unicode используется практически на 50% сайтов

Комментарии: 2

Полтора года назад Google отмечала тот факт, что Unicode-кодировка стала встречаться в Интернете чаще чем любая другая. Темпы роста универсальной кодировки с тех пор продолжали расти.

Напомним, что кодировки представляют собой таблицы (матрицы), в которых определенный элемент привязан к соответствующему символу языка (букве, цифре, знаку препинания, специальному символу и так далее), поэтому когда браузер использует неправильную таблицу, то вместо необходимых знаков отображаются странные символы, знаки вопроса и так далее.

Обычно таблицы кодировки не очень велики и содержат достаточно места лишь для одного или нескольких языков, однако Unicode рассчитан на возможность хранения информация о всех часто используемых символах и при этом содержит в себе зарезервированное место, которое можно будет применять в будущем. Всего в таблице Unicode может быть зашифровано 65536 символов.

Приблизительно 10 лет назад самой распространенной кодировкой в Интернете явлалась таблица ASCII, а около 5 лет назад начался стремительный взлет Unicode. Сейчас эта кодировка не только в 2 с лишним раза опережает своих ближайших конкурентов, но и используется практически на 50% сайтов. Данная статистика получена с помощью анализа страниц, индексируемых Google.

Отметим, что недавно была принята новая редакция Unicode версии 5.2, в которой были добавлены более 6 600 новых символов.

  • ITC.UA

    Комментарии к статье:

    [drupal=43893]Google: Unicode используется практически на 50% сайтов[/drupal]

    [quote]Полтора года назад Google отмечала тот факт, что Unicode-кодировка стала встречаться в Интернете чаще чем любая другая. Темпы роста универсальной кодировки с тех пор продолжали расти. Напомним, что кодировки представляют[/quote]

    • zmeuka

      Неправильно о количестве символов.
      Вообще Unicode (Universal Character Set) подразумевает использование до 2147483648 символов.
      Упомянутый на графике Google вариант UTF-8 использует последовательности до 4 байт на символ, позволяя кодировать до 1114112 символов.
      Ограничение в 65536 символов есть только у двухбайтовой кодировки UCS-2, которая применяется, например, для передачи SMS в мобильниках. Но это — не совсем Unicode, а только огрызок, и в вебе он почти не представлен.

Новости партнеров