• локализованные основные программы – редакторы, офисные пакеты, словари и т. п.
Теоретическая часть
Стандарты кодировки
Как известно, символ как минимальный элемент алфавита, и представление этого символа в компьютере (кодировка) – две разные вещи.
Кодировкой называется совокупность уникальных символов, которые система способна распознать как самостоятельную сущность.
Поскольку первоначально компьютеры были разработаны за рубежом (Великобритания и США) и не предназначались для экспорта, производители не озаботились поддержкой языков, отличных от английского. Со временем это вызвало определенные проблемы, однако решение их осуществлялось хаотично и без учета перспектив дальнейшего развития программ и аппаратуры. В результате русскоязычное компьютерное сообщество получило несколько различных кодировок, в той или иной степени учитывающих национальную специфику.
Стандарт ASCII
Наиболее популярной кодировкой была (и фактически ей и остается) кодировка ASCII (Американский Стандартный Код для Информационного Обмена).
Стандарт ASCII, иногда называемый 7-битный ASCII, включает в себя 128 уникальных символов. Они подразделяются на символы, которые ASCII определяет как печатаемые символы, и на символы управления, большая часть которых использовалась в старых протоколах связи. Каждому элементу набора соответствует целочисленный символьный код от 0 до 127.
Со временем 7-битный стандарт ASCII был расширен до 8-битного ASCII (расширенный ASCII). Этот стандарт подразумевает наличие 256 символов, которые соответствуют кодам от 0 до 255. Первая часть таблицы – от 0 до 127 не претерпела по сравнению с предыдущим стандартом никаких изменений, а во второй половине таблицы пусто. Дело в том, что 8-битный стандарт ASCII не определяет содержание второй половины таблицы кодировки. В этих целях Международная Организация по Стандартизации (ISO) выпустила серию стандартов (известных как семейство ISO 8859-х), определяющих кодировку второй половины таблицы для различных языков. Нас как пользователей кириллицы интересуют следующие кодовые страницы:
• 8859-0 – новый европейский стандарт (Latin 0);
• 8859-1 – Европа, Латинская Америка (Latin 1);
• 8859-2 – Восточная Европа.
• 8859-5 – кириллица.
В кодовой странице 8859-1 (Latin 1) старшая половина таблицы определяет различные символы, которые не входят в английский алфавит, но присутствуют в различных европейских языках. Соответственно, в остальных кодировках в старшей половине таблицы находятся специфические национальные символы, входящие в алфавит указанного региона.
Есть еще одна реализация расширенного ASCII – кодовая страница IBM. Эта кодировка в старшей половине содержит псевдографические символы.
Казалось бы, вполне достаточный набор стандартов. Однако есть несколько отрицательных моментов:
• ограничение набора модифицируемых символов (128);
• невозможность использования в одном чисто текстовом документе нескольких кодировок.
Альтернативная кодировка (CP866)
Альтернативная кодировка (СР866) – это кодовая страница IBM, где все специфические европейские символы были заменены на буквы из кириллицы, оставив нетронутыми псевдографические символы.
Кодировка Microsoft CP1251
Кодовая страница Microsoft CP 1251 – это попытка Microsoft облегчить труд программисту. Используется для кодировки кириллицы в Windows. Устраняет проблему с сортировкой по алфавиту, связанную с тем, что в странице СР866 буквы русского алфавита располагались не подряд.
Стандарт КОИ8
Стандарт был разработан достаточно давно, когда во всю использовалась 7-битная кодировка символов ASCII. Разработчики КОИ8 поместили символы русской кириллицы в верхней части расширенной таблицы ASCII таким образом, чтобы позиции кириллических символов соответствовали их фонетическим аналогам в английском алфавите в нижней части таблицы. Так, если в тексте, хранящемся в кодировке КОИ8, убрать старший (восьмой) бит каждого символа, то получится текст, написанный английскими символами в русской транскрипции. Например, предложение «Мама мыла раму» после удаления старшего бита будет выглядеть так: «Mama myla ramu».
Существует несколько реализаций стандарта КОИ8, в частности, KOI8-R – для русского языка, KOI8-U – для украинского.
Стандарт RFC 1489 Registration of a Cyrillic Character Set, созданный Андреем Черновым, регламентирует использование KOI8-R для представления русскоязычных документов в Интернете, где KOI8-R давно уже стал фактическим стандартом для русской кириллицы.
Читать дальше
Конец ознакомительного отрывка
Купить книгу