По начальной букве, по всем буквам, спектры Морозова

ЛЕКЦИЯ №9

Компьютерные алгоритмы контент-анализа текстов –

Действительно, любой текст, представленный средствами естественного языка, есть набор букв, из которых формируются слова, а из последних строятся предложения. Слова делятся на неделимые единицы, обилие которых в словах и предложениях позволяют с одной стороны каждому человеку при построение предложений выдерживать индивидуальность, а с другой стороны каждую индивидуальность речи можно отличать формальными математическими характеристиками текста. На это обстоятельство впервые обратил внимание выдающийся русский учёный – энциклопедист Н.А. Морозов (1854-1946г). Вот, что он писал в статье [1]:

«Каждый литературно-образованный» человек знает, что все оригинальные авторы отличаются своим складом речи, даже и в том случае, когда мы сравниваем их с писателями того же самого поколения. Мы, русские, легко отличаем, например, склад речи Гоголя от склада речи Пушкина или Тургенева. В английской литература склад речи Теккерея совсем не похож на склад речи Диккенса».

… «Чтобы выяснить сразу, что я хочу здесь сказать, рассмотрю несколько примеров. Возьмём хотя бы в нашем русском языке два легко заменяемых друг другом слова: «так как» и «потому что». Почти в каждой фразе одно из них можно заменить другим с сохранением первоначального смысла, и потому в переводе на иностранный язык такое различие в складе речи исчезает, между тем как в оригинале одни авторы могут машинально употреблять почти исключительно первую из этих «служебных частиц речи», редко вспоминая о существовании второй, другие же авторы понии второй, другие же авторы паи второй, другие же авторы поступять совершенно наоборотем как в оригинале одни авторы могут машступят совершенно наоборот».

По мнению Н.А. Морозова служебные частицы распоряжаются нашей речью и их он назвал распорядительными частицами, с помощью которых можно различать особенности склада речи писателя. Рассматривая вопрос о том, какие слова могут определять индивидуальность склада речи, он обратил внимание на то, что такие группы слов, как имена существительные, прилагательные и глаголы зависят от содержания текста и частота их употребления ничего не скажет об индивидуальности автора.

Однако, по мнению Н.А. Морозова: «даже и при разнородности сюжетов, есть во всех языках ряд слов, которые употребляются почти одинаково во всех родах литературы и которые по своему характеру могут быть названы, как я уже выражался ранее, служебными или распорядительными частицами человеческой речи».

Говоря конкретно об указанных частицах, он писал следующее [1]:

«Это, прежде всего союзы, предлоги и отчасти местоимения и наречия, а затем и некоторые вставные словечки, в роде: «то есть», «например» или «и так далее». Затем идут деепричастные и причастные окончания, как задние приставные частицы, характеризующие среднюю сложность фразы у того или другого автора. Даже и самые знаки препинания могут быть названы в этом случае попутными (или паузными) распорядительными частицами всех человеческих языков».

Далее Морозов здесь же задает такой вопрос: «Нельзя ли по частоте таких частиц узнавать авторов, как будто по чертам их портретов?»

На этот вопрос он отвечает так: «Для этого, прежде всего надо перевести их на графики, обозначая каждую распорядительную частицу на горизонтальной линии, а число ее повторения на вертикальной, и сравнить эти графики между собой у различных авторов».

Подобные графики Н.А. Морозов назвал лингвистическими спектрами, а исследование различных текстов с их помощью – лингвистическим анализом. Технология этого анализа, предложенная Н.А. Морозовым, такова: отсчитывается первая тысяча слов любого текста и затем подсчитывается число встретившейся той или иной служебной частицы.

Чтобы упростить спектры, Н.А. Морозов разделил их на предложные, союзные и местоименные. По его подсчетам оказалось, что часто повторяющимися у всех русских авторов оказались предлоги в, на, с, поэтому их графики им были названы главным предложным спектром. Например, на тысячу слов у Гоголя предлог в повторялся в «Тарасе Бульбе» 23 раза, в «Майской ночи» – 15, а в «Страшной мести» – 16 раз; предлог на повторился 24 раза в «Майской ночи» и 26 раз в «Тарасе Бульбе» и «Страшной мести». Когда же значения частот рассматриваемых предлогов на указанных графиках были соединены прямыми линиями, то во всех трех рассматриваемых произведениях Гоголя получились довольно сходные ломаные линии. В произведениях же Пушкина – «Барышня-крестьянка», «Дубровский», «Капитанская дочка» характер таким же образом построенных ломаных оказался другим.

Статья [1] была опубликована в 1915 году.

Через некоторое время появилась статья известного русского математика А.А. Маркова (старшего) [1], в которой лингвистический анализ Морозова был подвергнут резкой критике.

Суть критики А.А. Маркова сводилась к следующему. Если для подсчёта частоты той или иной служебной частицы брать исследуемые 1000 слов текста в разных местах одного и того же произведения, то частота появления данной частицы может резко измениться, что в свою очередь изменит характер лингвистического спектра.

В тот период времени все расчёты частотного анализа производились «вручную» и подтвердить или опровергнуть критику маститого математика А.А. Маркова не представлялось возможным. Современные же компьютерные технологии позволяют проверить опасения Маркова.

Для этого в [1] была постулирована следующая гипотеза. Поиск числа повторений той или иной служебной частицы среди тысячи слов исследуемого текста отождествим с известной задачей математической статистики о повторение испытаний, то есть количество слов текста будем считать числом испытаний n_i, а число m_i повторений частицы – числом появлений события. Тогда можно ввести понятие частоты

, (1)

как отношение указанных чисел.

В математической статистике известны случаи, когда при увеличении числа испытаний числовые значения частот колеблются около некоторой величины и отклонения частот от указанной величины уменьшаются с ростом числа испытаний. Как правило, в качестве таковой величины принимается среднее арифметическое P_ср частот P_i. Если в формуле (1) символом i будем обозначать номер серии испытаний, то P_ср необходимо вычислять так:

, (2)

где N – число серий.

В статистике описанный факт повторяемости частот называется законом устойчивости частот, а на основе известной теоремы Я. Бернулли, величина P_ср принимается в качестве вероятности появления разыскиваемого события.

Если для всех служебных частиц будет иметь место закон устойчивости частот, то критику Маркова следует признать несостоятельной.

Этот факт позволяет провести вычисления P_ср по формуле (2) и принять их в качестве вероятностей появления элементов изучаемого спектра.

Установленный закон устойчивости частот иллюстрируют также графики поведения значений P_i от номера серии i испытаний построенные по данным таблицы 2 и представленные на рисунках 1, 2 и 3.

Рис. 1. Иллюстрация закона устойчивости частот появления предлога «в».

Рис. 2. Иллюстрация закона устойчивости частот появления предлога «на»

Рис. 3. Иллюстрация закона устойчивости частот появления предлога «с»

Аналогичным образом проведён анализ некоторых произведений Н.В. Гоголя и А.С. Пушкина с целью выявления закономерностей главного предложного спектра у данных авторов, результаты которого представим в виде таблицы 3, заимствованной из [1].