1. Введение Вкратце об истории проблемы

В литературе, истории, лингвистике часто возникает вопрос об атрибуции литературных произведений — действительно ли они написаны одним автором. Действительно ли диалоги Платона написаны одним человеком? Правда ли, что пьесы Шекспира творения одного гения? Или же они написаны разными людьми? Кто в действительности скрывается под именем «Шекспир»? Специальный интерес приобретает эта проблема, когда возникает подозрение в плагиате.

Особое звучание задачи такого сорта приобретают при исследовании ДРЕВНИХ текстов, данные об авторах которых утрачены или сомнительны.

Укажем лишь на некоторые подходы к решению таких задач.

Например, в работе В. Фукса [р1] изучался вопрос об авторстве некоторых древних текстов на основе статистического анализа различных ГРАММАТИЧЕСКИХ структур их языка.

Много исследований посвящено обнаружению количественных закономерностей, позволяющих различать между собой РАЗНЫЕ ЛИТЕРАТУРНЫЕ ЖАНРЫ — поэзию, драматургию, публицистику и пр. [р2].

Попытка использования точных математических приемов для решения проблемы плагиата изложена, например, в книге [р10].

Проблеме обнаружения авторских инвариантов посвящена значительная научная литература. Так например, структура языка различных авторов изучалась с помощью отдельных распорядительных слов, в частности, предлога «в», частицы «не» [р3], или при помощи длины предложений и слов [р4]. Однако, как показали эксперименты, использование лингвистических спектров ОТДЕЛЬНЫХ распорядительных слов не позволяет обнаружить устойчивые инварианты. На это указал еще в 1916 году академик А.А. Марков [р5], отметивший что при больших объемах выборок результаты такого типа должны «колебаться около среднего числа, подчиняясь общим законам языка», что естественно затрудняет различение авторов.

Полезный подход продемонстрирован в ряде работ В. Фукса, где каждому автору сопоставляются такие его характеристики, как среднее количество слогов и среднее количество слов в предложении. Этот прием позволяет изобразить текст (автора) точкой на плоскости в случае использования двух параметров, или же точкой в многомерном пространстве (если число параметров возрастает).

Интересные исследования ведутся и в отечественной филологии (см., например, [р6]-[р9]).

Следует отметить общую характерную особенность этих и многих других (не упомянутых нами здесь) исследований. Обычно изучаются индивидуальные количественные параметры текстов и путем их сравнения ученые старались выявить «значимые различия», опираясь на которые можно было бы отличить друг от друга разных авторов. Однако главным вопросом здесь является — какие различия следует считать значимыми, а какие — нет. Тут открывается простор для субъективизма. И здесь коренятся главные трудности применения статистических методов к задачам такого сорта.

Более 800 000 книг и аудиокниг! 📚

Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением

ПОЛУЧИТЬ ПОДАРОК