Определим избыточность русского языка

Стационарный дискретный двоичный канал без памяти определяется четырьмя условными переходными вероятностями P(0|0), P(0|1), P(1|0), P(1|1). Из этих четырех вероятностей P(0|0) и P(1|1) – вероятности неискаженной передачи символов 1 и 0, а две другие – вероятности искажения символов 1 и 0. Когда вероятности искажения символов P(1|0) P(0|1) равны, канал носит название двоично-симметричного канала.

Скорость передачи информации по каналу связи – одна из важнейших его характеристик. Технической скоростью или Vт является скорость, соответствующая числу элементарных символов, передаваемых по каналу в единице времени. Техническая скорость иногда называется скоростью манипуляций. Единица измерения: бод. Бод – это скорость, при которой за одну секунду передается один символ. Скорость передачи информации определяется средним количеством информации, которая передается по каналу за единицу времени, она зависит от следующих факторов:

1) характеристик канала связи;

2) объема алфавита символов;

3) технической скорости передачи;

4) статистических свойств помех;

5) вероятности поступления на вход символов и их статической взаимосвязи.

ЛК

05.03.13

Передача дискретной информации при отсутствии помех

В случае передачи информации при отсутствии помех в канале каждому сообщению на входе соответствует вполне определенное сообщение на выходе. Пропускной способностью такого канала называют максимальную скорость передачи, которая возможна для данного канала. Максимальное число элементов можно передавать по каналу только при оптимальном кодировании – это и будет пропускной способностью. В реальных каналах скорость передачи несколько меньше пропускной способности канала. Потому что есть некоторая избыточность.

Передача дискретной информации при наличии помех

Помехи, действующие в канале, вызывают искажения полезного сигнала, что приводит к потере или искажению некоторой части информации. Пропускной способностью в этом случае считается максимальная скорость передачи информации в условиях заданного уровня помех, при котором вероятность ошибки передачи символов не превышает 0,5 (сколь угодно малая).

Передача информации с использованием непрерывных сигналов

Передача информации непрерывными, но квантованными сигналами может осуществляться как при отсутствии помех, так и при их наличии. При этом пропускная способность зависит не только от характеристик передаваемых сигналов и помех, но и от параметров канала передачи информации. При чем скорость передачи информации можно повысить путем изменения характеристик, как сигнала, так и канала передач: увеличить шаг квантования, уменьшить дисперсию помехи, увеличить амплитуду сигнала, увеличить частотную полосу пропускания канала (расширить полосу), повысить допустимую вероятность ошибки передачи информации.

Информационные свойства теста и изображения

Количество информации в дискретных сообщениях определяется буквой N и равно mn.

Текстовая информация очень широко используется в АСУ. Например, при выдаче данных о состоянии объектов, о значении параметров технологического процесса. Для этого используются специфические англоязычные тексты, которые применяются при составлении программ на языках более высокого уровня.

В процессе работы все источники и приемники сообщений обладают дискретными свойствами. Они создают и передают сообщение последовательно, символ за символом. Последовательность символов образует слова и фразы. В принципе, эта последовательность не является случайной, она подчиняется определенным статистическим закономерностям. Если бы все символы алфавита были равновероятными, то энтропия была бы равной для кириллицы. Однако вероятности появления букв в русском языке не одинаковы. Статистический анализ текстов усложняется в следствие того, что вероятности появления последующих символов значительно зависит от предыдущих.

Вероятность появления букв в русском тексте

Буква Р Буква Р Буква Р Буква Р
Пробел 0,174 Р 0,04 У 0,021 Ч 0,012
О 0,09 В 0,038 Я 0,018 Й 0,01
ЕЁ 0,072 Л 0,035 З 0,016 Х 0,009
И 0,062 К 0,028 Ы 0,016 Ж 0,007
Н 0,053 М 0,026 Б 0,014 Ш 0,006
Т 0,053 Д 0,025 ЬЪ 0,014 Ю 0,006
С 0,045 П 0,023 Г 0,013 Ц 0,004
            Щ 0,003
            Э 0,003
            Ф 0,002

Зная вероятности можно подсчитать значение энтропии на один знак.

Для немецкого алфавита при равновероятном появлении знаков 4,75 бит/зн., а с учетом реальных вероятностей 4,11 бит/зн.

Значение частоты появления знаков в текстах в полиграфии всегда имело большое значение. Например, при ручном наборе количество шрифтовых знаков набора должно было быть не меньше вероятности их появления в русском языке. Значение частоты буквенных сочетаний позволяет совершенствовать методику кодирования текста за счет создания многокодовых клавиш. Одной из статистических характеристик текстов является избыточность текста.

Мера избыточности:

,

где Нмакс – максимально возможная энтропия при равновероятном появлении знаков. Н – энтропия реальная, с учетом вероятности появления знаков и их сочетаний. Избыточность нельзя рассматривать как признак несовершенства языка или несовершенства построения сообщений. Обычно избыточность является следствием его лингвистических свойств. Избыточность имеет как положительные, так и отрицательные свойства. С одной стороны, избыточность требует дополнительных затрат на их передачу и увеличение объемов памяти и так далее. Но, с другой стороны, избыточность повышает помехоустойчивость, так как позволяет обнаруживать и даже исправлять ошибки. Высокая избыточность естественных языков общения людей обеспечивает надежное распознавание смысла речи при наличии у различных людей и акцентов, и дефектов. Все равно это позволяет понимать человека.

Как известно, при равновероятном событии энтропия равна 5. Значение 4,35 нельзя принимать в качестве исходной величины при оценке избыточности. Если учесть корреляцию между появлением одного знака после другого, то энтропия уменьшится до величины 3,52 бит/зн. Учет всех ограничений в языке, включая связи между отдельными словами, позволяет найти минимальное значение энтропии на знак: 1,5 бит/зн.

Это означает, что каналы передачи информации, которые конструируются без учета ограничений с отсутствием помех, используется всего на 30 %.

Информационные свойства иллюстраций


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: