Объемный подход к измерению информации применяется в цифровых (компьютерных) системах хранения и передачи информации. В этих системах используется двоичный способ кодирования информации. При объемном подходе для определения количества информации имеет значение лишь размер (объем) хранимого и передаваемого кода. Объемный подход еще называют алфавитным подходом. Из курса информатики 8–9 классов вы знаете, что если с помощью i -разрядного двоичного кода можно закодировать алфавит, состоящий из N символов, то эти величины связаны между собой по формуле:
2 i = N.
Число N называется мощностью алфавита. Например, если i = 2, то можно построить 4 двухразрядные комбинации из нулей и единиц, т. е. закодировать 4 символа. При i = 3 существует 8 трехразрядных комбинаций нулей и единиц (кодируется 8 символов):
i=2: | ||||||||
i=3: |
Английский алфавит содержит 26 букв. Для записи текста нужны еще, как минимум, шесть символов: пробел, точка, запятая, вопросительный знак, восклицательный знак, тире. В сумме получается расширенный алфавит, мощностью в 32 символа.
|
|
Поскольку 25=32, то все символы можно закодировать всевозможными пятиразрядными двоичными кодами от 00000 до 11111. Именно пятиразрядный код использовался в телеграфных аппаратах, появившихся еще в XIX веке. Телеграфный аппарат при вводе переводил английский текст в двоичный код, длина которого в 5 раз больше, чем длина исходного текста.
В двоичном коде каждая двоичная цифра несет одну единицу информации, которая называется 1 бит. |
Бит является основной единицей измерения информации. |
Длина двоичного кода, с помощью которого кодируется символ алфавита, называется информационным весом символа. В рассмотренном выше примере информационный вес символа расширенного английского алфавита оказался равным 5 битам.
Информационный объем текста складывается из информационных весов всех составляющих его символов. Например, английский текст из 1000 символов в телеграфном сообщении будет иметь информационный объем 5000 бит.
Алфавит русского языка включает 33 буквы. Если к нему добавить еще пробел и пять знаков препинания, то получится набор из 39 символов. Для его двоичного кодирования пятиразрядного кода уже не достаточно. Нужен, как минимум, 6-разрядный код. Поскольку 26=64, то остается еще резерв для 25 символов (64-39=25). Его можно использовать для кодирования цифр, всевозможных скобок, знаков математических операций и других символов, встречающихся в русском тексте. Следовательно, информационный вес символов в расширенном русском алфавите будет равен 6 битам. А текст из 1000 символов будет иметь объем 6000 бит.
|
|
Если i- информационный вес символа алфавита, а К – число символов в тексте, записанном с помощью этого алфавита, то информационный объем текста (I) выражается формулой:
I=K×i бит
Идея измерения количества информации в сообщении через длину двоичного кода с этим сообщением принадлежит выдающемуся российскому математику Андрею Николаевичу Колмогорову. Согласно Колмогорову, количество информации, содержащееся в тексте, определяется минимально возможной длиной двоичного кода, необходимого для представления этого текста.
|
Для определения информационного веса символа полезно представлять себе ряд целых степеней двойки. Вот как он выглядит в диапазоне от 21 до 210:
i | ||||||||||
2i |
Информационный вес символа из алфавита мощности N определяется по ближайшему значению во второй строке таблицы, не меньшему, чем N. Соответствующее значение i в первой строке равно информационному весу символа.
Пример. Определим информационный вес символа из алфавита, включающего в себя все строчные и прописные русские буквы (66); цифры (10); знаки препинания, скобки, кавычки (10). Всего получается 76 символов.
Поскольку 26<76<27, следовательно, информационный вес символов данного алфавита равен 7 битам. Это означает, что все 76 символов можно закодировать семиразрядными двоичными кодами.
Из базового курса информатики вам известно, что в компьютерах используется двоичное кодирование информации. Для двоичного представления текстов в компьютере чаще всего применяется восьмиразрядный код. С помощью восьмиразрядного кода можно закодировать алфавит из 256 символов, поскольку 256=28. В стандартную кодовую таблицу (например, ASCII), помещаются все необходимые символы: английские и русские буквы прописные и строчные, цифры, знаки препинания, знаки арифметических операций, всевозможные скобки и пр.
Более крупной единицей измерения информации является байт: 1 байт = 8 бит.
Информационный объем текста в памяти компьютер, измеряется в байтах. При использовании восьмиразрядного кода он равен количеству символов в записи текста
Одна страница текста на листе формата А4 кегля 12 с одинарным интервалом между строками (см. пример выше) в компьютерном представлении будет иметь объем 4000 байтов, так как на ней помещается примерно 4000 знаков.
Помимо бита и байта, для измерения информации используются и более крупные единицы:
1Кб (килобайт) = 210байт=1024 байта;
1Мб (мегабайт) = 210 Кб=1024 Кб;
1Гб (гигабайт) = 210 Мб=1024 Мб;
1Тб (терабайт) = 210Гб=1024 Гб.
Объем той же страницы текста будет равным приблизительно 3,9Кб. А книга из 500 таких страниц займет в памяти компьютера примерно 1,9 Мб.
В компьютере любые виды информации: тексты, числа, изображения, звук - представляются путем двоичного кодирования
Объем любой информации, выраженный в битах, равен количеству двоичных разрядов в ее представлении в памяти компьютера
Измерение информации – объемный (алфавитный) подход | ||||||
На бумажных носителях | На цифровых носителях и в технических системах передачи информации | |||||
Объем текста измеряется в знаках | Объем информации равен размеру двоичного кода Основная единица:1 бит – один разряд двоичного кода | |||||
Информационный вес символа (i бит) из алфавита, мощностью N, определяется из уравнения: 2 i = M. Где N ≤ M – ближайшая сверху целая степень двойки | Информационный объем текста (I), содержащего К символов I=K×i бит | |||||
Производные единицы | ||||||
1 б= 8 бит | 1 Кб=1024 б | 1 Мб=1024 Кб | 1 Гб=1024 Мб | 1 Тб=1024 Мб | ||