ЛЕКСИКОГРАФИЧЕСКИЕ ДЕРЕВЬЯ
В данном случае и впрямь имеется «объект», который можно подвергать преобразованию подобия: назовем этот объект лексикографическим деревом. Прежде всего, определим его и опишем, что в данном контексте имеется в виду под преобразованием подобия. Затем докажем, что в случае масштабной инвариантности лексикографического дерева частотность слов следует приведенному выше двухпараметрическому закону. Далее мы обсудим справедливость объяснения и особо остановимся на интерпретации показателя D как размерности.
Деревья. Лексикографическое дерево имеет N+1 стволов, пронумерованных от 0 до N. Первый ствол соответствует «слову», состоящему из одной только «неправильной» буквы – «пробела»; каждый из остальных стволов соответствует одной из N «правильных» букв. Ствол «пробела» гол, а каждый из остальных стволов несет на себе N+1 главных ветвей, которые соответствуют пробелу и N правильным буквам. В следующем поколении ветвь пробела остается голой, а остальные ветви разветвляются, как и прежде, на N+1 меньших ветвей. То есть пустой конец каждой ветви пробела соответствует слову, состоящему из правильных букв, за которым следует пробел. Построение продолжается до бесконечности. На конце каждой пустой ветви вырезана вероятность употребления соответствующего слова. На конце же непустой ветви вырезана полная вероятность употребления слов, которые начинаются с последовательности букв, определяющей данную ветвь.
Масштабно-инвариантные деревья. Дерево можно назвать масштабно-инвариантным, если каждая взятая в отдельности ветвь представляет собой в некотором роде уменьшенную копию всего дерева. Усечение такого дерева означает, почти буквально, отсечение от него какой-либо ветви. Отсюда выводим наше первое заключение – ветвление масштабно-инвариантного дерева не должно иметь каких-либо пределов. В частности, неразумно – хотя на неподготовленный взгляд это совсем не очевидно – пытаться измерить богатство словарного запаса исчислением общего количества различных слов. (Почти каждый из нас «знает» настолько больше слов, чем употребляет в речи, что словарный запас среднего человека практически бесконечен.) Далее можно определить (соответствующее рассуждение мы опустим) вид, какой принимает вероятность P пустой ветви k - го уровня, т.е. растущая над k «живыми» ветвями.
Получение обобщенного закона Ципфа в простейшем случае. [323, 350, 358]. Простейшее масштабно-инвариантное дерево соответствует повествованию, которое представляет собой последовательность статистически независимых букв, причем вероятность употребления каждой правильной буквы составляет r<1/N, а вероятность употребления неправильной буквы «пробела» равна остатку (1?Nr). В этом случае k - й уровень обладает следующими свойствами:
P=(1?Nr)rk=P0rk,
а величина ? заключена между границей
1+N+N2+...+Nk?1=(Nk?1)(N?1)
(исключая саму границу) и границей
(Nk+1?1)/(N?1)
(включая границу). Записав
D=lnN/ln(1/r)<1 и V=1/(N?1)
и подставив в каждое граничное выражение
k=ln(P/P0)/lnr,
получим
P?DP0D?1<?/V?N(P?DP0D)?1.
Искомый результат находим, аппроксимируя ? с помощью среднего значения его границ.
Обобщение. Можно построить и более сложные масштабно-инвариантные деревья, соответствующие последовательностям букв, порождаемым стационарными случайными процессами (марковскими цепями, например) и разделенными впоследствии пробелами на слова. Рассуждение становится более сложным [326], однако результат остается неизменным.
Обратное утверждение. Следует ли из данных Ципфа, что лексикографическое дерево, построенное из обычных букв, является масштабно-инвариантным? Разумеется, нет: многие короткие последовательности никогда не встречаются в языке, в то же время многие длинные последовательности употребляются довольно широко. Следовательно, реальные лексикографические деревья далеки от строгой масштабной инвариантности, однако вышеприведенное рассуждение, по сути, достаточно хорошо объясняет, почему выполняется обобщенный закон Ципфа. Можно также упомянуть и о том, что закон Ципфа первоначально рассматривался как весьма многообещающий вклад в лингвистику – впрочем, как показывает мое объяснение, с лингвистической точки зрения закон этот очень поверхностен.
Обобщенный закон Ципфа также выполняется внутри определенных ограниченных словарных составов. Например, специалисты в области одной эзотерической дисциплины, называемой агиоантропонимией и занимающейся исследованием случаев использования имен святых для именования обычных людей (см. [322]), установили, что к таким именам закон Ципфа вполне применим и к фамилиям. Означает ли это, что соответствующие деревья масштабно - инвариантны?
Показатель D есть фрактальная размерность. Мы заметили, что показатель D формально является фрактальной размерностью. Это наблюдение не столь поверхностно, как может показаться. В самом деле, если перед словом (в том виде, в каком мы его определили) поставить десятичную запятую, то это слово окажется ничем иным, как числом в интервале от 0 до 1, записанным в системе счисления с основанием (N+1) и содержащим нули только в конце. Отметим такие числа на интервале [0,1] и добавим сюда предельные точки этого множества. Построение, в сущности, сводится к удалению из интервала [0,1] всех чисел, содержащих нули в иных, кроме конца, позициях. В результате получаем канторову пыль, фрактальная размерность которой в точности равна D.
Что же касается других, отличных от простейших, масштабно-инвариантных лексикографических деревьев, к которым мы обращались выше за обобщенным доказательством закона Ципфа, то они аналогичным образом соответствуют обобщенным канторовым множествам с размерностью D. Уравнение для D в [326] представляет собой матричное обобщение определения размерности подобия с помощью равенства NrD=1.
Дальнейшее обобщение: случай D>1. Любопытно, что условие D<1 вовсе не является универсальным. Примеры, в которых обобщенный закон Ципфа выполняется, но оценка размерности D удовлетворяет неравенству D>1, весьма редки, однако, несомненно, имеют место. Для описания роли особого значения D=1 допустим, что закон P=F(?+V)?1/D выполняется только до некоторого значения ?=?*??. При D<1 не возникает никаких трудностей с составлением бесконечных словарей, предполагаемых вышеприведенными теоретическими рассуждениями. Однако при D?1 бесконечный ряд ?(?+V)?1/D расходится. Следовательно, согласно условиям ?P=1 и F>0, величина P* должна быть конечна, т.е. словарь должен содержать конечное число слов.
В самом деле, размерность D>1, как выясняется, встречается только в тех случаях, когда словарь противоестественным образом ограничен какими-то внешними искусственными средствами (как, например, в случае вставок латинским шрифтом в нелатинский текст). Такие особые случаи рассматриваются в моих статьях, посвященных этой теме. Поскольку построение, ограниченное конечным количеством точек, не может дать фрактального множества, величину D>1 не следует интерпретировать как фрактальную размерность.