Шаг 1. Выдвижение гипотезы (гипотез) о главном содержании работы по ее наименованию.
Для этого в наименовании работы выделяются ключевые слова.
Каждому ключевому слову или словосочетанию, согласно контексту содержания наименования текста определяем возможные значения этого слова, используя для этого соответствующие словари. По совокупности ключевых слов и полем их значений можно сделать предположение о содержании научной работы.
Таким образом, в результате смыслового анализа наименования исследуемой статьи получим:
- наименование статьи = ТЕКСТ (ключевое слово_1, ключевое слово_ I…, ключевое слово_N)
- значения ключевого слова_1: значение_11, значение_12, ….
- значения ключевого слова_I: значение_I1, значение_I2….
……………………………………………………………………
- значения ключевого слова_N: значение_N1, значение_N2….
- гипотезы о содержании статьи на основе полей значений ключевых слов.
Гипотеза_1 В статье может идти речь о…………..
……………………………….
Гипотеза_k В статье может идти речь о……………….
|
|
Замечание. Гипотезы должны использовать ключевые слова.
Все ключевые слова заносятся в словник[5], формируемый исследователем.
Шаг 2. Весь текст делим на смысловые фрагменты.
Смысловой фрагмент характеризуется законченной мыслью выраженной в предложении (минимальный смысловой фрагмент) или в совокупности предложений (абзац в тексте). Конечно, такое деление текста на фрагменты является грубым, поскольку может теряться общее контекстное поле статьи. Однако для научных текстов такое огрубление, в первом приближении, допустимо.
Перенумеруем все фрагменты от 1 до M. Получим
ТЕКСТ =(Фрагмент_1, фрагмент_2, …фрагмент_I, …, фрагмент_М)
Шаг 3 (первый фильтр). Просмотрим все фрагменты и отметим те, которые являются «водой». Исключим эти фрагменты из первой итерации анализа.
Шаг 4 (второй фильтр). Среди оставшихся фрагментов исключим из первой итерации те фрагменты, которые являются примерами и иллюстрациями.
Шаг 5 (третий фильтр). Среди оставшихся фрагментов исключим из первой итерации те фрагменты, которые являются отсылками к авторитетам.
Шаг 6 (четвертый фильтр). Выделим те фрагменты, в которых дается толкование старым и новым терминам. Все эти толкования перенесем в словник.
Если в процессе фильтрации остались фрагменты, двигаемся дальше.
Шаг 7. Выбираем очередной фрагмент из оставшихся. Выделим во фрагменте ключевые слова. Получим:
ФРАГМЕНТ=(ключевое слово 1, ключевое слово 2, …).
В качестве полноты выделенных ключевых слов пользуемся следующей схемой. Пусть ключевые слова в тексте занимают определенную позицию.
Удалим из текста все не ключевые слова, сохранив только ключевые на их позициях. Получим шаблон фрагмента из ключевых слов.
|
|
Восстановим текст по ключевым словам. Если текст, восстановленный таким образом, схож по смыслу с исходным, то можно считать, что ключевых слов достаточно. Если нет – надо выделить еще ключевые слова.
Попытаемся переосмыслить содержание фрагмента на основе ключевых слов и выразить это переосмысление в краткой форме (можно даже в форме афоризма, метафоры). Если это удалось, необходимо перефразировать эту мысль таким образом, чтобы в ней использовались некоторые ключевые слова фрагмента. Все ключевые слова с используемыми значениями заносим в словник.
Шаг 8. Соберем краткие мысли фрагментов в один текст. В результате получим совокупность кратких в общем случае контекстно не связных фрагментов (телеграфный стиль). Выделим главные мысли, поскольку возможны смысловые повторы.
Шаг 9. Определим общее смысловое поле «телеграфного текста» и представим его текстовой форме. Переосмыслим этот текст и перефразируем его в терминах ключевых слов фрагментов.
Шаг 10. Сравним по смыслу результат шага 9 с предсказаниями по п.. Возможны следующие итоги:
1) смысл результата совпадает с одной из высказанных гипотез;
2) смысл результата не совпадает ни с одной из высказанных гипотез;
3) смысл результата релевантен[6] предсказаниям.
Если итог второй – необходимо предложить наименование статьи, более полно соответствующее содержанию.
Если результат третий – надо дать корректирующее наименование статьи.
Сопровождающая статистика
Оценку выполненной работы можно осуществлять на основе следующей статистики.
Подсчитаем общее число слов, используемых в тексте (L). Подсчитаем общее число слов в отложенных фрагментах (вода, примеры, аргументация, термины) (Q). Подсчитаем число слов (n) в каждом из оставшихся фрагментах и число слов в кратких тезисах фрагментов (m). Подсчитаем число слов в итоговом фрагменте (U). Подсчитаем число слов, перенесенных в словник (S). На основе этих числовых величин можно построить характеристики сжатия текста (коэффициент сжатия, коэффициент смыслового соответствия и т.д.).
Все материалы проведенного исследования (по шагам 9, 10, сопровождающая статистика, словник с ключевыми словами) используются для оформления расширенного реферата.
По итогу четырех фильтров возможна ситуация, когда фрагментов больше нет. В этом случае на основе первой итерации будем считать – данная работа не является научным текстом. Для обоснованной аргументации этого тезиса необходимо проведение второй итерации по отложенным текстам, в первую очередь примеры и иллюстрации, далее «вода», далее аргументации автора. Информация научного текста может содержаться в указанных фрагментах из-за некорректного разбиения текста на абзацы.
После второй итерации также возможны два итога:
- в результате выявления научной информации продолжить анализ до его завершения на 10 шаге с последующими выводами;
- признать, что данная работа не является научным текстом.