Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информатика
Посмотреть оригинал

Алфавитный подход к определению количества информации

При алфавитном подходе к определению количества информации можно отвлечься от содержания информации и рассматривать информационное сообщение как последовательность знаков определенной знаковой системы.

Информационная емкость знака. Представим себе, что необходимо передать информационное сообщение по каналу передачи информации от отправителя к получателю. Пусть сообщение кодируется с помощью знаковой системы, алфавит которой состоит из N знаков (1,.... N). В простейшем случае, когда длина кода сообщения составляет один знак, отправитель может послать одно из N возможных сообщений << 1», «2»,.... < Передача информации

Рис. 2.5. Передача информации

Формула (2.1) связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение. Тогда в рассматриваемой ситуации N — это количество знаков в алфавите знаковой системы, а I — количество информации, которое несет каждый знак:

С помощью этой формулы можно, например, определить количество информации, которое несет знак в двоичной знаковой системе:

Информационная емкость знака двоичной знаковой системы составляет 1 бит.

Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак. В качестве примера определим количество информации, которое несет буква русского алфавита. В русский алфавит входит 33 буквы, однако на практике часто для передачи сообщений используется только 32 буквы (исключается буква <<ё>>).

С помощью формулы (2.1) определим количество информации, которое несет буква русского алфавита:

N = 32 => 32=2! => 25 = 21 => I = 5 бит.

Таким образом, буква русского алфавита несет 5 бит информации.

Количество информации, которое несет знак, зависит от вероятности его получения. Если получатель заранее точно знает, какой знак придет, то полученное количество информации будет равно 0. Наоборот, чем менее вероятно получение знака, тем больше его информационная емкость.

В русской письменной речи частота использования букв в тексте различна, так, в среднем на 1000 знаков осмысленного текста приходится 200 букв «а» и в сто раз меньшее количество буквы «ф» (всего 2). Таким образом, с точки зрения теории информации, информационная емкость знаков русского алфавита различна (у буквы «а» она наименьшая, а у буквы «ф» — наибольшая).

Количество информации в сообщении. Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации.

Если знаки несут одинаковое количество информации, то количество информации в сообщении 1с можно подсчитать, умножив количество информации, которое несет один знак I, на длину кода (количество знаков в сообщении) К:

Так, каждая цифра двоичного компьютерного кода несет информацию в 1 бит. Следовательно, две цифры несут информацию 2 бита, три цифры — 3 бита и т.д. Количество информации в битах равно количеству цифр двоичного компьютерного кода.

Количество информации, которое несет двоичный компьютерный код

Таблица 2.3

Двоичный компьютерный код

1

0

1

0

1

Количество информации

1 бит

1 бит

1 бит

1 бит

1 бит

Задание «Количество информации в тексте». Система оптического распознавания символов позволяет преобразовывать отсканированные изображения страниц документа в текстовый формат со скоростью 4 страницы в минуту и использует алфавит мощностью 65 536 символов. Какое количество информации будет нести текстовый документ после 10 минут работы приложения, страницы которого содержат 40 строк по 50 символов.

По формуле (2.1) определим информационную емкость символа алфавита:

По формуле (2.2) определим количество информации на странице:

Определим количество информации, которое будет нести текстовый документ:

Информационная емкость знаков в различных языках. Существуют языки (например, китайский), в которых знаки (иероглифы) обозначают понятие (слово) целиком. Попробуем с использованием формулы (2.1) примерно определить количество иероглифов, использующееся в китайском языке.

Числительное «три» в русском письме передается тремя знаками — буквами, следовательно, количество информации в русском слове «три» согласно формуле (2.2) равно:

В китайском языке это числительное обозначается одним иероглифом Будет считать, что количество информации в словах, обозначающих одни и те же понятия, одинаково в русском и китайском языках, следовательно, иероглиф имеет информационную емкость I = 15 бит. По формуле (2.1) можно определить количество знаков в алфавите, если известно количество информации, которое несет один знак. Примерное количество иероглифов в китайском алфавите равно:

Мы получили правильную оценку, так как действительно самые полные словари китайского языка включают около 50 000 иероглифов.

Контрольные вопросы

1. Книги на русском и китайском языках содержат одинаковое количество знаков. В какой книге содержится большее количество информации с точки зрения алфавитного подхода?

Задания для самостоятельного выполнения

  • 2.8. Задание с выборочным ответом. Какое количество информации содержит один разряд двоичного числа:
    • а) 1 байт;
    • б) 3 бит;
    • в) 4 бит;
    • г) 1 бит.
  • 2.9. Задание с кратким ответом. Какое количество информации несет двоичный код 10101010?
  • 2.10. Задание с кратким ответом. Какова информационная емкость знака генетического кода?
  • 2.11. Задание с развернутым ответом. Пользователь компьютера может вводить в минуту 200 знаков. Мощность используемого алфавита равна 256. Какое количество информации может ввести пользователь в компьютер за 5 минут?
 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы