ЗАКОН СЛОВАРНОЙ ЧАСТОТНОСТИ ЦИПФА

We use cookies. Read the Privacy and Cookie Policy

Слово есть не что иное, как последовательность «правильных» букв, заканчивающаяся «неправильной» буквой, называемой пробелом. Возьмем образец речи некого индивидуума и расположим в ряд содержащиеся в этом образце слова по следующему принципу: на первое место поставим слово, встретившееся в тексте наибольшее количество раз, далее – второе по частоте употребления и т.д., причем слова с одинаковой частотой будем располагать в произвольном порядке. В такой классификации ? обозначает порядковый номер (ранг) слова, встречающегося в речи с вероятностью P, а термин распределение частотности слов описывает соотношение между ? и P.

Можно ожидать, что это соотношение подвержено самым беспорядочным изменениям, находящимся в зависимости от языка и индивидуальных особенностей оратора, однако в действительности это не так. Эмпирический закон, обнаруженный Ципфом [615] (о Дж. К. Ципфе смотрите очерк в главе 40), гласит, что соотношение между ? и P «универсально», т.е. независимо от параметров, и имеет следующий вид:

P?1/?.

А во втором приближении, которое я получил теоретически (тщетно пытаясь теоретически же вывести беспараметрический закон P?1/?), все различия между языками и индивидуумами свелись к выражению

P=F(?+V)?1/D.

Поскольку ?P=1, параметры D, F и V оказываются связаны соотношением F?1=?(?+V)?1/D.

В совокупности эти параметры служат мерой того, насколько богат словарный запас данного индивидуума.

Основным параметром является показатель D. Представляется разумным измерять богатство словарного запаса через относительную частоту использования субъектом редких слов: взяв, например, в качестве эталона частоту слова ранга ?=1000, а не слова ранга ?=10. Эта относительная частота возрастает при увеличении D.

Почему вышеописанному закону присуща такая универсальность? Учитывая, что он почти идеально гиперболичен, и принимая во внимание все то, что мы уже успели узнать из настоящего эссе, в высшей степени разумным будет попробовать соотнести закон Ципфа с неким лежащим в его основе скейлинговым свойством. (В 1950 г., когда я впервые столкнулся с этой задачей, такая процедура вовсе не казалась столь очевидной.) Как можно заключить из обозначения, показатель здесь играет свою обычную роль – роль размерности. Вторым параметром является префактор F (см. главу 34).