ЗАКОН СЛОВАРНОЙ ЧАСТОТНОСТИ ЦИПФА

Слово есть не что иное, как последовательность «правильных» букв, заканчивающаяся «неправильной» буквой, называемой пробелом. Возьмем образец речи некого индивидуума и расположим в ряд содержащиеся в этом образце слова по следующему принципу: на первое место поставим слово, встретившееся в тексте наибольшее количество раз, далее – второе по частоте употребления и т.д., причем слова с одинаковой частотой будем располагать в произвольном порядке. В такой классификации ? обозначает порядковый номер (ранг) слова, встречающегося в речи с вероятностью P, а термин распределение частотности слов описывает соотношение между ? и P.

Можно ожидать, что это соотношение подвержено самым беспорядочным изменениям, находящимся в зависимости от языка и индивидуальных особенностей оратора, однако в действительности это не так. Эмпирический закон, обнаруженный Ципфом [615] (о Дж. К. Ципфе смотрите очерк в главе 40), гласит, что соотношение между ? и P «универсально», т.е. независимо от параметров, и имеет следующий вид:

P?1/?.

А во втором приближении, которое я получил теоретически (тщетно пытаясь теоретически же вывести беспараметрический закон P?1/?), все различия между языками и индивидуумами свелись к выражению

P=F(?+V)?1/D.

Поскольку ?P=1, параметры D, F и V оказываются связаны соотношением F?1=?(?+V)?1/D.

В совокупности эти параметры служат мерой того, насколько богат словарный запас данного индивидуума.

Основным параметром является показатель D. Представляется разумным измерять богатство словарного запаса через относительную частоту использования субъектом редких слов: взяв, например, в качестве эталона частоту слова ранга ?=1000, а не слова ранга ?=10. Эта относительная частота возрастает при увеличении D.

Почему вышеописанному закону присуща такая универсальность? Учитывая, что он почти идеально гиперболичен, и принимая во внимание все то, что мы уже успели узнать из настоящего эссе, в высшей степени разумным будет попробовать соотнести закон Ципфа с неким лежащим в его основе скейлинговым свойством. (В 1950 г., когда я впервые столкнулся с этой задачей, такая процедура вовсе не казалась столь очевидной.) Как можно заключить из обозначения, показатель здесь играет свою обычную роль – роль размерности. Вторым параметром является префактор F (см. главу 34).