Шаги исследования текста

Шаг 1. Выдвижение гипотезы (гипотез) о главном содержании работы по ее наименованию.

Для этого в наименовании работы выделяются ключевые слова.

Каждому ключевому слову или словосочетанию, согласно контексту содержания наименования текста определяем возможные значения этого слова, используя для этого соответствующие словари. По совокупности ключевых слов и полем их значений можно сделать предположение о содержании научной работы.

Таким образом, в результате смыслового анализа наименования исследуемой статьи получим:

- наименование статьи = ТЕКСТ (ключевое слово_1, ключевое слово_ I…, ключевое слово_N)

- значения ключевого слова_1: значение_11, значение_12, ….

- значения ключевого слова_I: значение_I1, значение_I2….

……………………………………………………………………

- значения ключевого слова_N: значение_N1, значение_N2….

- гипотезы о содержании статьи на основе полей значений ключевых слов.

Гипотеза_1 В статье может идти речь о…………..

……………………………….

Гипотеза_k В статье может идти речь о……………….

Замечание. Гипотезы должны использовать ключевые слова.

Все ключевые слова заносятся в словник[5], формируемый исследователем.

Шаг 2. Весь текст делим на смысловые фрагменты.

Смысловой фрагмент характеризуется законченной мыслью выраженной в предложении (минимальный смысловой фрагмент) или в совокупности предложений (абзац в тексте). Конечно, такое деление текста на фрагменты является грубым, поскольку может теряться общее контекстное поле статьи. Однако для научных текстов такое огрубление, в первом приближении, допустимо.

Перенумеруем все фрагменты от 1 до M. Получим

ТЕКСТ =(Фрагмент_1, фрагмент_2, …фрагмент_I, …, фрагмент_М)

Шаг 3 (первый фильтр). Просмотрим все фрагменты и отметим те, которые являются «водой». Исключим эти фрагменты из первой итерации анализа.

Шаг 4 (второй фильтр). Среди оставшихся фрагментов исключим из первой итерации те фрагменты, которые являются примерами и иллюстрациями.

Шаг 5 (третий фильтр). Среди оставшихся фрагментов исключим из первой итерации те фрагменты, которые являются отсылками к авторитетам.

Шаг 6 (четвертый фильтр). Выделим те фрагменты, в которых дается толкование старым и новым терминам. Все эти толкования перенесем в словник.

Если в процессе фильтрации остались фрагменты, двигаемся дальше.

Шаг 7. Выбираем очередной фрагмент из оставшихся. Выделим во фрагменте ключевые слова. Получим:

ФРАГМЕНТ=(ключевое слово 1, ключевое слово 2, …).

В качестве полноты выделенных ключевых слов пользуемся следующей схемой. Пусть ключевые слова в тексте занимают определенную позицию.

Удалим из текста все не ключевые слова, сохранив только ключевые на их позициях. Получим шаблон фрагмента из ключевых слов.

Восстановим текст по ключевым словам. Если текст, восстановленный таким образом, схож по смыслу с исходным, то можно считать, что ключевых слов достаточно. Если нет – надо выделить еще ключевые слова.

Попытаемся переосмыслить содержание фрагмента на основе ключевых слов и выразить это переосмысление в краткой форме (можно даже в форме афоризма, метафоры). Если это удалось, необходимо перефразировать эту мысль таким образом, чтобы в ней использовались некоторые ключевые слова фрагмента. Все ключевые слова с используемыми значениями заносим в словник.

Шаг 8. Соберем краткие мысли фрагментов в один текст. В результате получим совокупность кратких в общем случае контекстно не связных фрагментов (телеграфный стиль). Выделим главные мысли, поскольку возможны смысловые повторы.

Шаг 9. Определим общее смысловое поле «телеграфного текста» и представим его текстовой форме. Переосмыслим этот текст и перефразируем его в терминах ключевых слов фрагментов.

Шаг 10. Сравним по смыслу результат шага 9 с предсказаниями по п.. Возможны следующие итоги:

1) смысл результата совпадает с одной из высказанных гипотез;

2) смысл результата не совпадает ни с одной из высказанных гипотез;

3) смысл результата релевантен[6] предсказаниям.

Если итог второй – необходимо предложить наименование статьи, более полно соответствующее содержанию.

Если результат третий – надо дать корректирующее наименование статьи.

Сопровождающая статистика

Оценку выполненной работы можно осуществлять на основе следующей статистики.

Подсчитаем общее число слов, используемых в тексте (L). Подсчитаем общее число слов в отложенных фрагментах (вода, примеры, аргументация, термины) (Q). Подсчитаем число слов (n) в каждом из оставшихся фрагментах и число слов в кратких тезисах фрагментов (m). Подсчитаем число слов в итоговом фрагменте (U). Подсчитаем число слов, перенесенных в словник (S). На основе этих числовых величин можно построить характеристики сжатия текста (коэффициент сжатия, коэффициент смыслового соответствия и т.д.).

Все материалы проведенного исследования (по шагам 9, 10, сопровождающая статистика, словник с ключевыми словами) используются для оформления расширенного реферата.

По итогу четырех фильтров возможна ситуация, когда фрагментов больше нет. В этом случае на основе первой итерации будем считать – данная работа не является научным текстом. Для обоснованной аргументации этого тезиса необходимо проведение второй итерации по отложенным текстам, в первую очередь примеры и иллюстрации, далее «вода», далее аргументации автора. Информация научного текста может содержаться в указанных фрагментах из-за некорректного разбиения текста на абзацы.

После второй итерации также возможны два итога:

- в результате выявления научной информации продолжить анализ до его завершения на 10 шаге с последующими выводами;

- признать, что данная работа не является научным текстом.