11. Ненадежность

Up: Часть II. ТЕОРЕТИЧЕСКАЯ СЕКРЕТНОСТЬ Previous: 10. Совершенная секретность Contents: Содержание

11. Ненадежность

Предположим теперь, что для английского текста используется шифр простой подстановки и что перехвачено определенное число, скажем , букв зашифрованного текста. Если достаточно велико, скажем более 50, то почти всегда существует единственное решение шифра, т.е. единственная последовательность, имеющая смысл на английском языке, в которую переводится перехваченный материал с помощью простой подстановки. Для меньших шансы на неединственность решения увеличиваются; для , вообще говоря, будет существовать некоторое число подходящих отрывков осмысленного английского текста, в то время как для окажется подходящей значительная часть (порядка ) всех возможных значащих английских последовательностей такой длины, так как из восьми букв редко повторится больше чем одна. При , очевидно, возможна любая буква и апостериорная вероятность любой буквы будет равна ее априорной вероятности. Для одной буквы система является совершенно секретной.

Это происходит, вообще говоря, со всеми разрешимыми шифрами. Прежде чем перехвачена криптограмма, можно представить себе априорные вероятности, связанные с различными возможными сообщениями, а также с различными ключами. После того как материал перехвачен, шифровальщик противника вычисляет их апостериорные вероятности. При увеличении числа вероятности некоторых сообщений возрастают, но для большинства сообщений они убывают до тех пор, пока не останется только одно сообщение, имеющее вероятность, близкую к единице, в то время как полная вероятность всех других близка к нулю.

Таблица I. Апостериорныевероятности для криптограммы типа
Цезаря

Расшифровки
	0,028	0,0377	0,1111	0,3673	1
	0,038	0,0314
	0,131	0,0881
	0,029	0,0189
	0,020
	0,053	0,0063
	0,063	0,0126
	0,001
	0,004
	0,034	0,1321	0,2500
	0,025		0,0222
	0,071	0,1195
	0,080	0,0377
	0,020	0,0818	0,4389	0,6327
	0,001
	0,068	0,0126
	0,061	0,0881	0,0056
	0,105	0,2830	0,1667
	0,025
	0,009
	0,015		0,0056
	0,002
	0,020
	0,001
	0,082	0,0503
	0,014
(десятичных единиц)	1,2425	0,9686	0,6034	0,285	0

Для самых простых систем эти вычисления можно эффективно выполнить. Таблица I дает апостериорные вероятности для шифра Цезаря, примененного к английскому тексту, причем ключ выбирался случайно из 26 возможных ключей. Для того чтобы можно было использовать обычные таблицы частот букв, диграмм и триграмм, текст был начат в случайном месте (на страницу открытой наугад книги был случайно опущен карандаш). Сообщение, выбранное таким способом, начинается с ``creases to'' (карандаш опущен на третью букву слова increases). Если известно, что сообщение начинается не с середины, а с начала некоторого предложения, то нужно пользоваться иной таблицей, соответствующей частотам букв, диграмм и триграмм, стоящих в начале предложения.

Шифр Цезаря со случайным ключом является чистым, и выбор частного ключа не влияет на апостериорные вероятности. Чтобы определить эти вероятности, надо просто выписать возможные расшифровки с помощью всех ключей и вычислить их априорные вероятности. Апостериорные вероятности получатся из этих последних в результате деления их на их сумму. Эти возможные расшифровки, образующие остаточный класс этого сообщения, найдены с помощью стандартного процесса последовательного ``пробегания алфавита'', в таблице I они даны слева. Для одной перехваченной буквы апостериорные вероятности равны априорным вероятностям для всех букв1) (они приведены в таблице под рубрикой ).

Для двух перехваченных букв эти вероятности равны априорным вероятностям диграмм, пронормированным на их сумму (они приведены в столбце ). Триграммные частоты получены аналогично и приведены в столбце . Для четырех- и пятибуквенных последовательностей вероятности находились из триграммных частот с помощью умножения, так как с некоторым приближением

$\begin{displaymath}p(ijkl)=p(ijk)p_{jk}(l).\end{displaymath}$

Заметим, что для трех букв число возможных сообщений снижается до четырех сообщений достаточно высокой вероятности, причем вероятности всех других сообщений малы по сравнению с вероятностями этих четырех сообщений. Для четырех букв имеются два возможных сообщения и для пяти -- только одно, а именно правильная дешифровка.

В принципе это может быть проведено для любой системы, однако в том случае, когда объем ключа не очень мал, число возможных сообщений настолько велико, что вычисления становятся практически невыполнимыми.

Получаемое таким образом множество апостериорных вероятностей описывает, как постепенно, по мере получения зашифрованного материала, становятся более точными сведения шифровальщика противника относительно сообщения и ключа.

Это описание, однако, является слишком исчерпывающим и слишком сложным для наших целей. Хотелось бы иметь упрощенное описание такого приближения к единственности возможного решения.

Аналогичная ситуация возникает в теории связи, когда передаваемый сигнал искажается шумом. Здесь необходимо ввести подходящую меру неопределенности того, что действительно было передано, при условии, что известен только искаженный шумом вариант -- принятый сигнал.

В ``Математической теории связи'' показано, что естественной математической мерой этой неопределенности является условная энтропия передаваемого сигнала при условии, что принятый сигнал известен. Эта условная энтропия для удобства будет называться ненадежностью.

С криптографической точки зрения секретная система почти тождественна системе связи при наличии шума. На сообщение (передаваемый сигнал) действует некоторый статистический элемент (секретная система с ее статистически выбранным ключом). В результате получается криптограмма (аналог искаженного сигнала), подлежащая дешифрированию. Основное различие заключается в следующем: во-первых, в том, что преобразование при помощи шифра имеет обычно более сложную природу, чем возникающее за счет шума в канале; и, во-вторых, ключ в секретной системе обычно выбирается из конечного множества, в то время как шум в канале чаще является непрерывным, выбранным по существу из бесконечного множества.

Учитывая эти соображения, естественно использовать ненадеж-ность в качестве теоретической меры секретности. Следует отметить, что имеются две основные ненадежности: ненадежность ключа и ненадежность сообщения. Они будут обозначаться через и соответственно. Их величины определяются соотношениями

$\begin{gather*} H_E(K)=-\sum_{E,K}^{}P(E,K)\log P_E(K),\\ H_E(M)=-\sum_{E,M}^{}P(E,M)\log P_E(M), \end{gather*}$

где , и -- криптограмма, сообщение и ключ;

-- вероятность ключа и криптограммы ;

-- апостериорная вероятность ключа , если перехвачена криптограмма ;

и -- аналогичные вероятности, но не для ключа, а для сообщения.

Суммирование в проводится по всем возможным криптограммам определенной длины (скажем, ) и по всем возможным ключам. Для суммирование проводится по всем сообщениям и криптограммам длины . Таким образом, и являются функциями от -- числа перехваченных букв. Это будет иногда указываться в обозначении так: , . Заметим, что эти ненадежности являются ``полными'', т.е. не делятся на с тем, чтобы получить скорость ненадежности, которая рассматривалась в работе ``Математическая теория связи''.

Те же самые рассуждения, которые были использованы в ``Математической теории связи'' для обоснования введения ненадежности в качестве меры неопределенности в теории связи, применимы и здесь. Так, из того, что ненадежность равна нулю, следует, что одно сообщение (или ключ) имеет единичную вероятность, а все другие -- нулевую. Этот случай соответствует полной осведомленности шифровальщика. Постепенное убывание ненадежности с ростом соответствует увеличению сведений об исходном ключе или сообщении. Кривые ненадежности сообщения и ключа, нанесенные на график как функции от , мы будем называть характеристиками ненадежности рассматриваемой секретной системы.

Величины и для криптограммы шифра Цезаря, рассмотренной выше, сосчитаны и приведены в нижней строке таблицы I. Числа и в этом случае равны и даны в десятичных единицах (т.е. при вычислениях в качестве основания логарифма бралось 10). Следует отметить, что ненадежность здесь сосчитана для частной криптограммы, так как суммирование ведется только по (или ), но не по . В общем случае суммирование должно было бы проводиться по всем перехваченным криптограммам длины , в результате чего получилась бы средняя неопределенность. Вычислительные трудности не позволяют сделать это практически.

Up: Часть II. ТЕОРЕТИЧЕСКАЯ СЕКРЕТНОСТЬ Previous: 10. Совершенная секретность Contents: Содержание