ЛЕКЦИЯ 21
ОСНОВЫ ЭКОНОМНОГО КОДИРОВАНИЯ
21.1 Принципы экономного кодирования. Цель сжатия данных и типы систем сжатия
21.2. Сжатие без потерь информации
21.3. Сжатие с потерей информации
21.1 Принципы экономного кодирования. Цель сжатия данных и типы систем сжатия
Передаваемые сообщения (речь, музыка, телевизионные изображения и т.д.) в большинстве своем предназначены для
непосредственного восприятия органами чувств человека и обычно плохо приспособлены для их эффективной передачи по
каналам связи. Поэтому они в процессе передачи, как правило, подвергаются кодированию.
Что такое кодирование и зачем оно используется?
Под
кодированием
в общем случае понимают
преобразование алфавита
сообщения
A{
l
i }
, (
i = 1,2…N
l
) в алфавит некоторым
образом выбранных кодовых символов
X{ xj },
(
j = 1,2…Nx
)
.
Обычно (но не обязательно) размер алфавита кодовых
символов
dim X{ xj }
меньше или намного меньше размера алфавита источника
dimA{
l
i }.
Кодирование сообщений может преследовать различные цели. Например, это кодирование с целью засекречивания
передаваемой информации. При этом элементарным сообщениям
li
из алфавита
A{
l
i }
ставятся в соответствие
последовательности, к примеру, цифр или букв из специальных кодовых таблиц, известных лишь отправителю и получателю
информации.
Другим примером кодирования может служить преобразование дискретных сообщений
xi
из одних систем счисления в другие
(из десятичной в двоичную, восьмеричную и т.п., преобразование буквенного алфавита в цифровой и т. д.).
Кодирование в канале, или помехоустойчивое кодирование информации, может быть использовано для уменьшения количества
ошибок, возникающих при передаче по каналу с помехами.
Наконец, кодирование сообщений может производиться с целью
сокращения объема информации и повышения скорости
ее передачи или сокращения полосы частот, требуемых для передачи.
Такое
к
одирование называют
экономным,
безызбыточным
,
или
эффективным кодированием
,
а также
сжатием данных
.
В данном случае будет идти речь именно
о такого рода кодировании.
Процедуре кодирования обычно предшествуют (и включаются в нее) дискретизация и квантование непрерывного сообщения
l(t)
, то есть его преобразование в последовательность элементарных дискретных сообщений
{ liq }.
Прежде чем перейти к вопросу
экономного кодирования
,
кратко поясним суть самой процедуры кодирования.
Любое дискретное
сообщение
li
из алфавита источника
A
{ лi }
объемом в
Nl
символов можно закодировать
последовательностью соответствующим образом выбранных
кодовых символов
xj
из алфавита
X{ xj }.
Например, любое число (а
li
можно считать числом) можно записать в заданной позиционной системе счисления следующим
образом:
li = xn-1Чa n-1 + xn-2Чa n-2 +… + x0Чa 0,
(21.1)
где
a
- основание системы счисления;
x0 … xn-1
- коэффициенты при степенях
a
.
Пусть, к примеру, значение
li
=
59 .
В десятичной системе (a
= 10)
это число можно получить
li
= 5·101 + 9·100 =5910
Его код по основанию
a= 8
, будет иметь вид
li
= 5910 = 7·81 + 3·80 =738 .
Код того же числа, но по основанию
a = 4
будет выглядеть следующим образом:
li
= 59 = 3Ч42 + 2Ч41+ 3Ч40 = 3234 .
Наконец, если основание кода
a = 2
,
то
li
= 59 = 1Ч25 + 1Ч24 + 1Ч23 + 0Ч22 + 1Ч21 + 1Ч20 = 1110112
.
Таким образом, числа
73
,
323
и
111011
можно считать, соответственно, восьмеричным, четверичным и двоичным кодами числа
li
= 59
.
В принципе основание кода может быть любым, однако наибольшее распространение получили
двоичные коды
, или коды с
основанием
2,
для
которых размер алфавита кодовых символов
X{ xj }
равен двум,
xj М 0,1.
Двоичные коды, то есть коды,
содержащие только
нули и единицы,
очень просто формируются и передаются по каналам связи и, главное, являются
внутренним языком цифровых
ЭВМ
, то есть без всяких преобразований могут обрабатываться цифровыми средствами. Поэтому,
когда речь идет о кодировании и кодах, чаще всего имеют в виду именно
двоичные коды.
В дальнейшем будем рассматривать
в основном двоичное кодирование.
Самым простым способом представления или задания кодов являются кодовые таблицы, ставящие в соответствие
сообщениям
li
соответствующие им коды (табл. 21.1).
Буква li
Число li
Код
с основанием 10
Код
с основанием 4
Код
с основанием 2
А
0
0
00
000
Б
1
1
01
001
В
2
2
02
010
Г
3
3
03
011
Д
4
4
10
100
Е
5
5
11
101
Ж
6
6
12
110
З
7
7
13
111

Таблица 21.1
Другим наглядным и удобным способом описания кодов является их представление в виде кодового дерева (рис. 21.1).
Корень
Узлы
0
1
Вершина
0
1
0
1
0
1
0
1
0
1
0
1
А
Б
В
Г
Д
Е
Ж
З
1
2
3
4
5
6
7
8
Рис. 4.
Рис. 21.1 Кодовое дерево для равномерного кодирования
Для того, чтобы построить кодовое дерево для данного кода, начиная с некоторой точки -
корня
кодового дерева - проводятся
ветви - 0 или 1. На
вершинах
кодового дерева находятся буквы алфавита источника, причем каждой букве соответствуют
своя вершина и
свой путь от корня к вершине
. К примеру, букве А соответствует код 000, букве В – 010, букве Е – 101 и
т.д.
Код, полученный с использованием кодового дерева, изображенного на рис. 21.1, является
равномерным трехразрядным
кодом
.
Равномерные коды очень широко используются в силу своей простоты и удобства процедур кодирования-декодирования:
каждой букве – одинаковое число бит; принял заданное число бит – ищи в кодовой таблице соответствующую букву.
Наряду с равномерными кодами могут применяться и неравномерные коды, когда каждая буква из алфавита источника
кодируется различным числом символов, к примеру, А - 10, Б – 110, В – 1110 и т.д.
Кодовое дерево для неравномерного кодирования может выглядеть, например, так, как показано на рис. 21.2.
Рис. 21.2 Кодовое дерево для неравномерного кодирования
При использовании этого кода буква А будет кодироваться, как 1, Б - как 0, В – как 11 и т.д. Однако можно заметить, что,
закодировав, к примеру, текст АББА = 1001 , мы не сможем его однозначно декодировать, поскольку такой же код дают
фразы: ЖА = 1001, АЕА = 1001 и ГД = 1001. Такие коды, не обеспечивающие однозначного декодирования, называются
приводимыми, или непрефиксными,
кодами и не могут на практике применяться без специальных разделяющих символов.
Примером применения такого типа кодов может служить азбука Морзе, в которой кроме точек и тире есть специальные символы
разделения букв и слов. Но это уже не двоичный код.
Однако можно построить неравномерные неприводимые коды, допускающие однозначное декодирование. Для этого
необходимо, чтобы всем буквам алфавита соответствовали лишь вершины кодового дерева, например, такого, как показано на
рис. 21.3. Здесь ни одна кодовая комбинация не является началом другой, более длинной, поэтому неоднозначности
декодирования не будет. Такие неравномерные коды называются
префиксными
.
Рис. 21.3 Кодовое дерево для префиксного кодирования
Прием и декодирование неравномерных кодов - процедура гораздо более сложная, нежели для равномерных. При этом

усложняется аппаратура декодирования и синхронизации, поскольку поступление элементов сообщения (букв) становится
нерегулярным. Так, к примеру, приняв первый 0, декодер должен посмотреть в кодовую таблицу и выяснить, какой букве
соответствует принятая последовательность. Поскольку такой буквы нет, он должен ждать прихода следующего символа. Если
следующим символом будет 1, тогда декодирование первой буквы завершится – это будет Б, если же вторым принятым
символом снова будет 0, придется ждать третьего символа и т.д.
Зачем же используются неравномерные коды, если они столь неудобны?
Рассмотрим пример кодирования сообщений
li
из алфавита объемом
Nl = 8
с помощью произвольного
n
-разрядного
двоичного кода.
Пусть источник сообщения выдает некоторый текст с алфавитом от
А
до
З
и одинаковой вероятностью букв
p(li ) =
1/8.
Кодирующее устройство кодирует эти буквы
равномерным трехразрядным кодом
(см. табл. 21.1).
Определим основные информационные характеристики источника с таким алфавитом:
- энтропия источника
(
)
е
=
-
=
l
l
N
i
i
i
p
p
H
1
log
,
(
)
3
log
=
=
l
l
N
H
;
- избыточность источника
(
)
0
log
1
=
-
=
l
l
N
H
r
и
;
- среднее число символов в коде
(
)
3
8
1
3
8
1
1
max
=
Ч
=
Ч
=
=
е
е
=
=
-
-
i
N
i
i
i
p
n
n
H
l
l
;
- избыточность кода
(
)
(
)
0
1
max
=
-
=
l
l
H
H
r
k
.
Таким образом, при кодировании сообщений с равновероятными буквами избыточность выбранного (равномерного) кода
оказалась равной нулю.
Пусть теперь вероятности появления в тексте различных букв будут разными (табл. 21.2).
Таблица 21.2
А
Б
В
Г
Д
Е
Ж
З
Ра
=0.6
Рб
=0.2
Рв
=0.1
Рг
=0.04
Рд
=0.025
Ре
=0.015
Рж
=0.01
Рз
=0.01
Энтропия источника
(
)
е
=
-
=
l
l
N
i
i
i
p
p
H
1
log
в этом случае, естественно, будет меньшей и составит
(
)
.
781
,
1
=
l
H
Среднее число символов на одно сообщение при использовании того же равномерного трехразрядного кода
.
3
)
(
1
1
max
=
=
=
=
е
е
=
=
n
p
n
p
n
H
N
i
i
N
i
i
i
l
Избыточность кода в этом случае будет
(
)
(
)
41
.
0
3
781
.
1
1
1
max
»
-
=
-
=
l
l
H
H
r
k
,
довольно значительной величиной (в среднем 4 символа из 10 не несут никакой информации).
В связи с тем, что
при кодировании неравновероятных сообщений равномерные коды обладают большой
избыточностью
, было предложено использовать
неравномерные коды, длительность кодовых комбинаций которых
была бы согласована с вероятностью выпадения различных букв
.
Такое кодирование называется статистическим.
Неравномерный код при статистическом кодировании выбирают так, чтобы
более вероятные буквы передавались с
помощью более коротких комбинаций кода, менее вероятные - с помощью более длинных
. В результате уменьшается
средняя длина кодовой группы в сравнении со случаем равномерного кодирования.
Один из способов такого кодирования предложен Хаффменом. Код Хаффмена для передачи одного из восьми сообщений
li
с
различными вероятностями иллюстрируется табл. 21.3.
Таблица 21.3
Буква
Вероятность
Рi
Код
ni
ni Ч Pi
А
Б
В
Г
Д
Е
Ж
З
0.6
0.2
0.1
0.04
0.025
0.015
0.01
0.01
0
10
110
1110
11110
111110
1111110
1111111
1
2
3
4
5
6
7
7
0.6
0.4
0.3
0.16
0.125
0.08
0.07
0.07
Среднее число символов для такого кода составит

(
)
,
825
.
1
8
1
max
=
=
е
=
i
i
i
P
n
H
l
а избыточность кода
(
)
(
)
,
03
.
0
825
.
1
781
.
1
1
1
max
»
-
=
-
=
l
l
H
H
r
k
т.е. на порядок меньше, чем при равномерном кодировании.
Другим простейшим способом статистического кодирования является кодирование по методу Шеннона-Фано.
Процедура кодирования по методу Шеннона-Фано иллюстрируется табл. 21.4.
Таблица 21.4
Буква
Р(li )
Kод
ni Ч Pi
А
0.6
1
0.6
Б
0.2
011
0.6
В
0.1
010
0.3
Г
0.04
001
0.12
Д
0.025
0001
0.1
Е
0.015
00001
0.075
Ж
0.01
000001
0.06
З
0.01
000000
0.06
Для полученного таким образом кода среднее число двоичных символов, приходящихся на одну букву, равно
(
)
9
.
1
7
0
max
»
=
е
=
i
i
i
P
n
H
l
,
а избыточность кода составит
,
06
.
0
9
.
1
781
.
1
1
»
-
=
k
r
то есть также существенно меньшую величину, нежели для равномерного кода.
Обратим внимание на тот факт, что как для кода Хаффмена, так и для кода Шеннона-Фано среднее количество двоичных
символов, приходящееся на символ источника, приближается к энтропии источника, но не равно ей. Данный результат
представляет собой следствие
теоремы кодирования без шума для источника (первой теоремы Шеннона)
,
которая
утверждает:
Любой источник можно закодировать двоичной последовательностью при среднем количестве двоичных символов
на символ источника li, сколь угодно близком к энтропии, и невозможно добиться средней длины кода, меньшей,
чем энтропия H(л).
Значение этой теоремы трудно переоценить – она устанавливает те границы в компактности представления информации,
которых можно достичь при правильном ее кодировании.
Передача и хранение информации требуют достаточно больших затрат. И чем с большим количеством информации нам
приходится иметь дело, тем дороже это стоит. К сожалению, большая часть данных, которые нужно передавать по каналам
связи и сохранять, имеет не самое компактное представление. Скорее, эти данные хранятся в форме, обеспечивающей их
наиболее простое использование, например: обычные книжные тексты, ASCII коды текстовых редакторов, двоичные коды
данных ЭВМ, отдельные отсчеты сигналов в системах сбора данных и т.д. Однако такое наиболее простое в использовании
представление данных требует вдвое - втрое, а иногда и в сотни раз больше места для их сохранения и полосу частот для их
передачи, чем на самом деле нужно. Поэтому сжатие данных – это одно из наиболее актуальных направлений современной
теории электросвязи.
Таким образом, цель сжатия данных - обеспечить компактное представление данных, вырабатываемых
источником, для их более экономного сохранения и передачи по каналам связи.
Учитывая чрезвычайную важность процедуры экономного кодирования данных при их передаче, выделим ее из обобщенной
схемы
ПИ
.
Ниже приведена условная структура системы сжатия данных:
Рис. 21.4. Структура системы сжатия данных
В этой схеме вырабатываемые источником данные определим как
данные источника
, а их компактное представление - как
сжатые данные
. Система сжатия данных состоит из
кодера
и
декодера источника
.
Кодер преобразует данные источника в
сжатые данные, а декодер предназначен для восстановления данных источника из сжатых данных
.
Восстановленные
данные,
вырабатываемые декодером, могут либо абсолютно точно совпадать с исходными
данными источника
, либо незначительно
отличаться от них.
Существуют два типа систем сжатия данных:

системы сжатия без потерь информации (неразрушающее сжатие);
системы сжатия с потерями информации (разрушающее сжатие).
21.2.
Сжатие без потерь информации
В системах сжатия без потерь декодер восстанавливает данные источника абсолютно точно, таким образом, структура системы
сжатия выглядит следующим образом:
Рис. 21.5. Структура системы сжатия данных без потерь информации
Вектор данных источника
X
, подлежащих сжатию, представляет собой последовательность
X
= (
x1, x2,… xn
) конечной
длины. Отсчеты
xi
-
составляющие вектора
X -
выбраны из конечного
алфавита данных
A.
При этом размер вектора данных
n
ограничен, но он может быть сколь угодно большим. Таким образом, источник на своем выходе формирует в качестве данных
X
последовательность длиной
n
из алфавита
A .
Выход кодера - сжатые данные, соответствующие входному вектору
X,
- представим в виде двоичной
последовательности
B(X) = ( b1,b2,…bk ),
размер которой
k
зависит от
X
. Назовем
B(X)
кодовым словом, присвоенным вектору
X
кодером (или
кодовым словом, в которое вектор
X
преобразован кодером). Поскольку система сжатия - неразрушающая, одинаковым
векторам
Xl = Xm
должны соответствовать одинаковые кодовые слова
B ( Xl ) = = B ( Xm ).
При решении задачи сжатия естественным является вопрос, насколько эффективна та или иная система сжатия. Поскольку, как
мы уже отмечали, в основном используется только двоичное кодирование, то такой мерой может служить
коэффициент
сжатия
r
,
определяемый как отношение
k
A
n
)
(dim
log
2
=
r
, (21.2)
где
dim A -
размер алфавита данных
A
(размер данных источника в битах),
k
-
размер сжатых данных в битах.
Таким образом, коэффициент сжатия
2
=
r
означает, что объем сжатых данных составляет половину от объема данных
источника. Чем больше коэффициент сжатия
r
,
тем лучше работает система сжатия данных.
Наряду с коэффициентом сжатия
r
эффективность системы сжатия может быть охарактеризована
скоростью сжатия
R,
определяемой как отношение
n
k
R
=
,
(21.3)
где
n
- длина последовательности данных
X
из алфавита
A.
Скоростью сжатия измеряется "количество кодовых бит, приходящихся на отсчет данных источника". Система, имеющая
больший
коэффициент сжатия, обеспечивает
меньшую
скорость сжатия.
21.3. Сжатие с потерей информации
В системе сжатия с потерями (или с разрушением) кодирование производится таким образом, что декодер не в состоянии
восстановить данные источника в первоначальном виде. Структурная схема системы сжатия с разрушением выглядит
следующим образом:
Рис. 21.6
Структура системы сжатия данных с потерей информации
Как и в предыдущей схеме,
X = ( x1, x2,… xn )
- вектор данных, подлежащих сжатию. Восстановленный вектор обозначим как
X* = ( x1, x2,… xn ).
Отметим наличие в этой схеме сжатия элемента, который отсутствовал при неразрушающем сжатии, -
квантователя.
Квантователь применительно к вектору входных данных
X
формирует вектор
Xq
, достаточно близкий к
X
в смысле
среднеквадратического расстояния. Работа квантователя основана на понижении размера алфавита (простейший квантователь
производит округление данных до ближайшего целого числа).
Далее кодер подвергает неразрушающему сжатию вектор квантованных данных
Xq
таким образом, что обеспечивается
однозначное соответствие между
Xq
и
B(Xq)
(для
Xlq = Xm q
выполняется условие
B (Xlq) = B (Xmq)).
Однако система в
целом
остается разрушающей, поскольку двум различным векторам
X
может соответствовать один и тот же вектор
X*.
Разрушающий кодер характеризуется двумя параметрами - скоростью сжатия
R
и величиной
искажений
D,
определяемых как
n
k
R
=
,
(21.4)
(
)
е
=
-
=
n
i
i
i
x
x
n
D
1
2
*
1
.
(21.5)
Параметр
R
характеризует скорость сжатия в битах на один отсчет источника, величина
D
является мерой
среднеквадратического различия между
X*
и
X.
Если имеются система разрушающего сжатия со скоростью и искажениями
R1
и
D1
соответственно и вторая система со

скоростью
R2
и искажениями
D2,
то первая из них лучше, если
R1
R2
и
D1
D2.
Однако, к сожалению, невозможно построить
систему разрушающего сжатия, обеспечивающую одновременно снижение скорости
R
и уменьшение искажений
D,
поскольку
эти два параметра связаны обратной зависимостью. Поэтому целью оптимизации системы сжатия с потерями может быть либо
минимизация скорости при заданной величине искажений, либо получение наименьших искажений при заданной скорости
сжатия.
Выбор системы неразрушающего или разрушающего сжатия зависит от типа данных, подлежащих сжатию. При сжатии
текстовых данных, компьютерных программ, документов, чертежей и т.п. совершенно очевидно, что нужно применять
неразрушающие методы, поскольку необходимо абсолютно точное восстановление исходной информации после ее сжатия. При
сжатии речи, музыкальных данных и изображений, наоборот, чаще используется разрушающее сжатие, поскольку при
практически незаметных искажениях оно обеспечивает на порядок, а иногда и на два меньшую скорость
R
. В общем случае
разрушающее сжатие обеспечивает, как правило, существенно более высокие коэффициенты сжатия, нежели неразрушающее.
Ниже приведены ряд примеров, иллюстрирующих необходимость процедуры сжатия, простейшие методы экономного
кодирования и эффективность сжатия данных.
Пример 1. Предположим, что источник генерирует цифровое изображение (кадр) размером 512*512 элементов, содержащее 256
цветов. Каждый цвет представляет собой число из множества {0,1,2… 255}. Математически это изображение представляет собой
матрицу 512х512, каждый элемент которой принадлежит множеству {0,1,2… 255}. (Элементы изображения называют
пикселами).
В свою очередь, каждый пиксел из множества {0,1,2… 255} может быть представлен в двоичной форме с использованием 8
бит. Таким образом, размер данных источника в битах составит 8х512х512= 221, или 2,1 Мегабита.
На жесткий диск объемом в 1 Гигабайт поместится примерно 5000 кадров изображения, если они не подвергаются сжатию
(видеоролик длительностью примерно в пять минут). Если же это изображение подвергнуть сжатию с коэффициентом r = 10, то
на этом же диске мы сможем сохранить уже почти часовой видеофильм!
Предположим далее, что мы хотим передать исходное изображение по телефонной линии, пропускная способность которой
составляет 14000 бит/с. На это придется затратить 21000000 бит/14000 бит/с, или примерно 3 минуты. При сжатии же данных с
коэффициентом r = 40 на это уйдет всего 5 секунд !
Пример 2.
В качестве данных источника, подлежащих сжатию, выберем фрагмент изображения размером 4х4 элемента и
содержащее 4 цвета: R = "красный", O = "оранжевый", Y = "синий", G = "зеленый":
R
R
O
Y
R
O
O
Y
O
O
Y
G
Y
Y
Y
G
Просканируем это изображение по строкам и каждому из цветов присвоим соответствующую интенсивность, например, R = 3,
O = 2, Y = 1 и G = 0, в результате чего получим вектор данных X = (3,3,2,1,3,2,2,1,2,2,1,0,1,1,1,0).
Для сжатия данных возьмем кодер, использующий следующую таблицу перекодирования данных источника в кодовые слова:
Кодер
Отсчет
Кодовое слово
3
001
2
01
1
1
0
000
Используя таблицу кодирования, заменим каждый элемент вектора
X
соответствующей кодовой последовательностью из
таблицы (так называемое
кодирование без памяти).
Сжатые данные (кодовое слово
B(X))
будут выглядеть следующим
образом:
B(X) =
(0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,1,1,0,1,0,1,1,0,0,0,1,1,1,0,0,0).
Коэффициент сжатия при этом составит
r
= 32/31, или 1,03. Соответственно скорость сжатия
R
= 31/16 бит на отсчет.
Пример 3.
Сравним два различных кодера, осуществляющих сжатие одного и того же вектора данных
X = ABRACADABRA .
Первый кодер - кодер без памяти, аналогичный рассмотренному в предыдущем примере (каждый элемент вектора
X
кодируется независимо от значений других элементов -
кодер без памяти
). Таблица кодирования для него выглядит
следующим образом:
Кодер 1
Символ
Кодовое слово
A
0
B
10
R
110
C
1110

D
1111
Второй кодер при кодировании текущего символа учитывает значение предшествующего ему символа, таким образом, кодовое
слово для текущего символа
A
будет
различным в сочетаниях
RA, DA
и
CA
( иными словами,
код обладает памятью
в один
символ источника):
Кодер 2
Символ, предыдущий символ
Кодовое слово
(A,-)
1
(B,A)
0
(C,A)
10
(D,A)
11
(A,R)
1
(R,B)
1
(A,C)
1
(A,B)
1
Кодовые слова, соответствующие вектору данных
X = ABRACADABRA,
при кодировании с использованием этих двух таблиц
будут иметь вид:
B1(X) = 01011001110011110101100,
B2(X) = 10111011111011.
Таким образом, скорость сжатия при использовании
кодера 1
(без памяти) составит 23/11 = 2,09 бита на символ данных,
тогда как для
кодера 2
- 13/11 = =1,18 бита на символ. Использование второго кодера, следовательно, является более
предпочтительным, хотя он и более сложен.

Hosted by uCoz