В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы.
Национальная часть кодовой таблицы СР866
В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на странице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft.
Национальная часть кодовой таблицы СР1251
Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).
В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать 2 байта (16 бит).
N = 2i
2i = 216 = 65536
|
|
N = 65536 N – мощность алфавита символов в кодовой таблице Unicode.
i – информационный вес символа
Основополагающая таблица использования кодового пространства Unicode
Начало области | Конец области | Набор символов | Начало области | Конец области | Набор символов |
0000 | 007F | Basic Latin | 2150 | 218F | Number Forms |
0080 | 00FF | Latin-1 Supplement | 2190 | 21FF | Arrows |
0100 | 017F | Latin Extended-A | 2200 | 22FF | Mathematical Operators |
0180 | 024F | Latin Extended-B | 2300 | 23FF | Miscellaneous Technical |
0250 | 02AF | IPA Extensions | 2400 | 243F | Control Pictures |
02B0 | 02FF | Spacing Modifier Letters | 2440 | 245F | Optical Character Recognition |
0300 | 036F | Combining Diacritical Marks | 2460 | 24FF | Enclosed Alphanumerics |
0370 | 03FF | Greek | 2500 | 257F | Box Drawing |
0400 | 04FF | Cyrillic | 2580 | 259F | Block Elements |
0530 | 058F | Armenian | 25A0 | 25FF | Geometric Shapes |
0590 | 05FF | Hebrew | 2600 | 26FF | Miscellaneous Symbols |
0600 | 06FF | Arabic | 2700 | 27BF | Dingbats |
0700 | 074F | Syriac | 2800 | 28FF | Braille Patterns |
0780 | 07BF | Thaana | 2E80 | 2EFF | CJK Radicals Supplement |
0900 | 097F | Devanagari | 2F00 | 2FDF | Kangxi Radicals |
0980 | 09FF | Bengali | 2FF0 | 2FFF | Ideographic Description Characters |
0A00 | 0A7F | Gurmukhi | 3000 | 303F | CJK Symbols and Punctuation |
0A80 | 0AFF | Gujarati | 3040 | 309F | Hiragana |
0B00 | 0B7F | Oriya | 30A0 | 30FF | Katakana |
0B80 | 0BFF | Tamil | 3100 | 312F | Bopomofo |
0C00 | 0C7F | Telugu | 3130 | 318F | Hangul Compatibility Jamo |
0C80 | 0CFF | Kannada | 3190 | 319F | Kanbun |
0D00 | 0D7F | Malayalam | 31A0 | 31BF | Bopomofo Extended |
0D80 | 0DFF | Sinhala | 3200 | 32FF | Enclosed CJK Letters and Months |
0E00 | 0E7F | Thai | 3300 | 33FF | CJK Compatibility |
0E80 | 0EFF | Lao | 3400 | 4DB5 | CJK Unified Ideographs Extension A |
0F00 | 0FFF | Tibetan | 4E00 | 9FFF | CJK Unified Ideographs |
1000 | 109F | Myanmar | A000 | A48F | Yi Syllables |
10A0 | 10FF | Georgian | A490 | A4CF | Yi Radicals |
1100 | 11FF | Hangul Jamo | AC00 | D7A3 | Hangul Syllables |
1200 | 137F | Ethiopic | D800 | DB7F | High Surrogates |
13A0 | 13FF | Cherokee | DB80 | DBFF | High Private Use Surrogates |
1400 | 167F | Unified Canadian Aboriginal Syllabics | DC00 | DFFF | Low Surrogates |
1680 | 169F | Ogham | E000 | F8FF | Private Use |
16A0 | 16FF | Runic | F900 | FAFF | CJK Compatibility Ideographs |
1780 | 17FF | Khmer | FB00 | FB4F | Alphabetic Presentation Forms |
1800 | 18AF | Mongolian | FB50 | FDFF | Arabic Presentation Forms-A |
1E00 | 1EFF | Latin Extended Additional | FE20 | FE2F | Combining Half Marks |
1F00 | 1FFF | Greek Extended | FE30 | FE4F | CJK Compatibility Forms |
2000 | 206F | General Punctuation | FE50 | FE6F | Small Form Variants |
2070 | 209F | Superscripts and Subscripts | FE70 | FEFE | Arabic Presentation Forms-B |
20A0 | 20CF | Currency Symbols | FEFF | FEFF | Specials |
20D0 | 20FF | Combining Marks for Symbols | FF00 | FFEF | Halfwidth and Fullwidth Forms |
2100 | 214F | Letterlike Symbols | FFF0 | FFFD | Specials |
|
|
Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений.
Рассмотрим примеры.
1) Представьте в форме шестнадцатеричного кода слово «ЭВМ» во всех пяти кодировках. Воспользуемся компьютерным калькулятором для перевода чисел из десятичной в шестнадцатеричную систему счисления.
Последовательности десятичных кодов слова «ЭВМ» в различных кодировках составляем на основе кодировочных таблиц:
КОИ8-Р: 252 247 237
СР1251: 221 194 204
СР866: 157 130 140
Мас: 157 130 140
ISO: 205 178 188
Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:
КОИ8-Р: FC F7 ED
СР1251: DD C2 CC
СР866: 9D 82 8C
Мас: 9D 82 8C
ISO: CD B2 BC
2) Определить числовой код символа в кодировке Unicode с помощью текстового редактора Microsoft Word.
1. В операционной системе Windows запустить текстовый редактор Microsoft Word.
2. В текстовом редакторе Microsoft Word ввести команду [ Вставка-Символ… ]. На экране появится диалоговое окно Символ. Центральную часть диалогового окна занимает фрагмент таблицы символов.
3. Для определения числового кола знака кириллицы с помощью раскрывающегося списка Набор: выбрать пункт кириллица.
4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод (шестн.).
5. В таблице символов выбрать символ Э. В текстовом поле код знака: появится его шестнадцатеричный числовой код (в данном случае 042D).
Примеры решение задач