МЕТОДЫ ЭФФЕКТИВНОГО КОДИРОВАНИЯ

22.4. Неравномерное кодирование для последовательности сообщений

22.5. Арифметическое кодирование

22.6 Словарные методы сжатия

Простейшими кодами, на основе которых может выполняться сжатие данных, являются коды без памяти. В коде без памяти

каждый символ в кодируемом векторе данных заменяется кодовым словом из префиксного множества двоичных

последовательностей или слов.

Префиксным множеством двоичных последовательностей

называется конечное множество двоичных последовательностей,

таких, что ни одна последовательность в этом множестве не является префиксом, или началом, никакой другой

К примеру, множество двоичных слов

является префиксным множеством двоичных

последовательностей, поскольку, если проверить любую из возможных совместных комбинаций (

никогда не явится префиксом (или началом)

. С другой стороны, множество

множеством двоичных последовательностей, так как последовательность 00 является префиксом (началом) другой

последовательности из этого множества - 001.

Таким образом, если необходимо закодировать некоторый вектор данных

с алфавитом данных А размера

то кодирование кодом без памяти осуществляется следующим образом:

составляют полный список символов

-й по частоте появления в

то есть первым в списке будет стоять наиболее часто встречающийся в алфавите символ, вторым – реже встречающийся и

назначают кодовое слово

из префиксного множества двоичных последовательностей

выход кодера получают объединением в одну последовательность всех полученных двоичных слов.

Формирование префиксных множеств и работа с ними – это отдельная серьезная тема из теории множеств, выходящая за

рамки нашего курса, но несколько необходимых замечаний все-таки придется сделать.

} - префиксное множество, то можно определить некоторый вектор

состоящий из чисел, являющихся длинами соответствующих префиксных последовательностей (

, состоящий из неуменьшающихся положительных целых чисел, называется вектором

Крафта. Для него выполняется неравенство

Это неравенство называется неравенством Крафта. Для него справедливо следующее утверждение: если

префиксное множество, то

Иными словами, длины двоичных последовательностей в префиксном множестве удовлетворяют неравенству Крафта

Если неравенство (22.1) переходит в строгое равенство, то такой код называется компактным и обладает наименьшей среди

кодов с данным алфавитом длиной, то есть является оптимальным.

Ниже приведены примеры простейших префиксных множеств и соответствующие им векторы Крафта:

{0, 10, 1100, 1101, 1110, 11110, 111110, 111111}

Допустим мы хотим разработать код без памяти для сжатия вектора данных

символов. Введем в рассмотрение так называемый вектор вероятностей

Длина двоичной кодовой последовательности на выходе кодера составит

а средняя длина двоичной кодовой последовательности на выходе кодера составит

Лучшим кодом без памяти был бы код, для которого средняя длина

- минимальна. Для разработки такого кода нам нужно

Простой перебор возможных вариантов - вообще-то, не самый лучший способ найти такой вектор Крафта, особенно для

Прямая теорема неравномерного кодирования

существует побуквенный неравномерный префиксный код

со средней длиной кодовых слов

Обсудим полученную оценку длины кодовых слов. Мы знаем, что достижимая скорость кодирования примерно равна энтропии.

Теорема гарантирует, что средняя длина слов хорошего кода отличается от энтропии не более чем на 1. Если энтропия велика,

то проигрыш по сравнению с минимально достижимой скоростью можно считать небольшим. Но предположим, что

. Теорема гарантирует, что существует код со средней длиной кодовых слов не более 1,1 бита. Но нам хотелось

бы затрачивать на передачу одного сообщение примерно в 10 раз меньше бит. Этот пример показывает, что либо теорема дает

неточную оценку, либо побуквенное кодирование в этом случае не эффективно.

На этом же примере мы убедимся в том, что теорема достаточно точна и ее результат не может быть улучшен, если не

использовать никакой дополнительной информации об источнике. Действительно, предположим, что дан двоичный источник

{0,1} с вероятностями букв

. Минимально достижимая длина кодовых слов наилучшего кода, очевидно, равна 1.

Теорема говорит, что средняя длина кодовых слов не больше

данного примера двоичного источника теорема верна.

Достижение скоростей (затрат на передачу одной буквы источника), меньших 1, невозможно при побуквенном кодировании,

поскольку длина кодового слова не может быть меньше 1. Однако переход к кодированию блоков сообщений решает эту

проблему и позволяет сколь угодно близко подойти к теоретическому пределу, равному энтропии

решением данной задачи является арифметическое кодирование.

Обратная теорема неравномерного кодирования

Обратная теорема неравномерного кодирования устанавливает нижнюю границу средней длины кодовых слов любого

однозначно декодируемого кода.

Для любого однозначно декодируемого кода дискретного источника

средняя длина кодовых слов

соответствует неравенству

Иными словами, не существует кода со средней длиной кодовых слов меньше

и обладающего свойством

однозначной декодируемости.

Рассмотрим вопрос о том, при каких условиях возможно равенство в обратной теореме. Перепишем неравенство (22.5):

должно выполняться соотношение

В то же время для такого распределения вероятностей существует полный префиксный код с длинами кодовых слов

Для этого кода неравенство Крафта преобразуется в равенство

Таким образом, мы установили справедливость следующего утверждения.

Для существования кода со средней длиной кодовых слов

необходимо, чтобы все вероятности

— целые положительные числа.

Алгоритм Хаффмена, названный в честь его изобретателя - Дэвида Хаффмена, - дает нам эффективный способ поиска

оптимального вектора Крафта

– минимальна. Код, полученный с

использованием оптимального

, называют кодом Хаффмена.

Алгоритм Хаффмена изящно реализует общую идею статистического кодирования с использованием префиксных множеств и

работает следующим образом:

1. Выписываем в ряд все символы алфавита в порядке убывания вероятности их появления в тексте.

2. Последовательно объединяем два символа с наименьшими вероятностями появления в новый составной символ. Каждому

символу из составного символа приписываем: одному «0», а второму «1». Вероятность появления составного символа

полагаем равной сумме вероятностей составляющих его символов. Составной символ переставляем в ряде в соответствии с

новой суммарной вероятностью. В конце концов построим дерево, каждый узел которого имеет суммарную вероятность всех

узлов, находящихся ниже него.

3. Прослеживаем путь к каждому листу дерева, помечая направление к каждому узлу (например, направо - 1, налево - 0) .

Полученная последовательность дает кодовое слово, соответствующее каждому символу.

Построим кодовое дерево для сообщения со следующим алфавитом табл 22.1:

объединяем Е и F как символы с наименьшими вероятностями и приписываем символу Е – «0», а F – «1». Суммарная

вероятность двух символов 0,2. Составной символ Е F переставляем в ряде в соответствии с новой суммарной вероятностью.

2) объединяем С и D как символы с наименьшими вероятностями на данном шаге и приписываем символу С – «0», а D – «1».

Суммарная вероятность двух символов 0,25. Составной символ С D переставляем в ряде в соответствии с новой суммарной

3) объединяем В и Е F как символы с наименьшими вероятностями на данном шаге и приписываем символу В – «0», а Е F –

«1». Суммарная вероятность символов 0,4. Составной символ В Е F переставляем в ряде в соответствии с новой суммарной

4) объединяем А и С D как символы с наименьшими вероятностями на данном шаге и приписываем символу A – «0», а С D –

«1». Суммарная вероятность символов 0,6. Составной символ А С D переставляем в ряде в соответствии с новой суммарной

5) на последнем шаге объединяем А С D и B E F и приписываем символу А С D – «0», а B E F – «1». Суммарная вероятность

На рис.22.1 представлено дерево кода Хаффмена.

Рис. 22.1 Дерево кода Хаффмена

Избыточность кода Хаффмена

Из теоремы 22.1 следует, что для построенных по алгоритму Хаффмана кодов средняя длина кодовых слов удовлетворяет

избыточностью неравномерного кода.

При кодировании с избыточностью

каждое сообщение затрачивается на

бит больше, чем в принципе можно было бы потратить, если использовать теоретически

наилучший (возможно, нереализуемый) способ кодирования.

Итак, из (22.6) следует, что для кода Хаффмана избыточность г < 1. Хотелось бы получить более точную оценку средней длины

кодовых слов. Гораздо более точную оценку избыточности получил Р. Галлагер, наложив ограничение на максимальную из

вероятностей сообщений.

— наибольшая из вероятностей сообщений конечного дискретного ансамбля. Тогда избыточность

кода Хаффмана для этого ансамбля удовлетворяет неравенствам:

— энтропия двоичного ансамбля;

Алгоритм Шеннона-Фано заключается в следующем.

Символы алфавита источника (первичного или укрупненного) записываются в порядке не возрастающих вероятностей.

Затем они разделяются на две части так, чтобы суммы вероятностей символов, входящих в каждую из таких частей, были

примерно одинаковыми. Всем символам первой части приписывается в качестве первого символа комбинации неравномерного

кода ноль, а символам второй части — единица.

Затем каждая из этих частей (если она содержит более одного сообщения) делится в свою очередь на две, по возможности

равновероятные части и к ним применяется то же самое правило кодирования.

Этот процесс повторяется до тех пор, пока в каждой из полученных частей не останется по одному сообщению.

источника состоит из 8 символов

0,01. Процедура построения неравномерного кода Шеннона-Фано

На первом этапе производится деление на два множества

, так как вероятность р(А)=0,6 и сумма

примерно одинаковы. При этом символу

присваивается «1», а всем остальным

На втором этапе производится деление второго множества на два множества

присваивается «1», а множеству

Hа третьем этапе производится деление множества

на два множества (уже символа)

присваивается «0». Множество

На четвёртом этапе производится деление множества

На пятом этапе производится деление множества

На шестом этапе производится деление множества

присваивается «1», а символу

Легко проверить, что данный код оказывается префиксным и средняя длина кодовой комбинации

менее чем на 7 % превышает энтропию данного источника, равную 1,7813. A избыточность кода составит

Отметим, что хотя, деление на части с "примерно равными вероятностями" не является однозначной процедурой, но при

укрупнённого источника сообщений эти погрешности будут сглаживаться, а средняя длина

приближаться к предельному значению.

22.4. Неравномерное кодирование для последовательности сообщений

Разумеется, если мы рассматриваем стационарный источник и его распределение вероятностей на буквах не меняется от

буквы к букве, то любой из описанных выше способов может быть использован для кодирования отдельных сообщений

источника. Во многих случаях именно такой подход используется на практике как самый простой и достаточно эффективный.

В то же время, можно выделить класс ситуаций, когда побуквенное кодирование заведомо неоптимально. Во-первых, из

теоремы об энтропии на сообщение стационарного источника следует, что учет памяти источника потенциально может

значительно повысить эффективность кодирования. Во-вторых, побуквенные методы затрачивают как минимум 1 бит на

сообщение, тогда как энтропия на сообщение может быть значительно меньше 1.

Итак, рассмотрим последовательность

наблюдаемую на выходе дискретного стационарного источника, для

которого известно вероятностное описание, т.е. можно вычислить все многомерные распределения вероятностей и по ним —

Пусть указан некий способ кодирования, который для любых

для каждой последовательности