Синтаксический подход к проблеме фрагментирования

Рассматриваемое нами фрагментирование, ориентированное на так называемые типовые запросы, возможно, заслуживает внимание, но сами «типовые» запросы, как бы они тщательно ни формулировались, есть продукт взаимодействия (адаптации) потребителей информации с существующей информационной системой. А это значит, что в документальном потоке может быть определенный спектр фрагментов текстов, которые потенциально способны удовлетворять некоторые информационные потребности специалистов, но в перечне запросов они не окажутся, поскольку на подобные запросы существующая информационная система никогда не отвечала потребителям. Поэтому возникла мысль на последующем этапе эксперимента идти не от типовых запросов, а от содержательной структуры документов, допуская при этом, что в принципе любой содержательно замкнутый, понятный, вне контекста, отрезок текста («квант») — от предложения до суперсинтаксического целого — способен удовлетворить некоторую информационную потребность (поскольку, как мы предположили в самом начале главы, грамотно составленный документ не должен содержать в себе «пустой породы»).

Естественно, что определенное количество таких текстовых «квантов», выбранных на основе не столько содержательного, сколько формального подхода к анализу документа, может оказаться никогда не востребованным абонентами системы (быть балластом в системе), но мы знаем также, что не только «кванты», но нередко и сами документы (статьи, книги и т. п.) оказываются никогда не запрашиваемыми даже в крупнейших книжных хранилищах...

В связи с изложением общих принципов нового подхода к фрагментированию уместно остановиться на трех аспектах рассматриваемого процесса — синтаксическом, семантическом и прагматическом.

С точки зрения синтаксического подхода фрагмент есть сложное синтаксическое целое (типа сверхфразового единства или линейно-синтаксической цепи), единство элементов (предложений) которого обеспечивается аппаратом суперсинтаксических связей. Целостность, «осмысленность» и «самостоятельность» такой текстовой единицы определяются машиной (с использованием этого аппарата) на основе заложенной в нее программы.

С семантической точки зрения фрагмент есть микро- (сегмент) или макроконтекст (суперсегмент), обладающий с точки зрения информанта осмысленностью, законченностью, самостоятельностью и потенциальным соответствием (релевантностью) некоторой типовой информационной потребности. Такие сегменты (суперсегменты) могут совпадать с ССЦ, а могут и не совпадать: быть его частью или включать в себя два и более ССЦ.

С прагматической точки зрения фрагмент — контекст, способный без обращения к полному тексту первичного документа удовлетворять информационные потребности определенных групп потребителей информации, т. е. обладать пертинентностью.

Ниже рассматриваются два подхода в рамках синтаксического (формального) аспекта фрагментирования.

Первый из них, названный нами методом абзацного разбиения текста, исходит из следующих допущений: самостоятельный фрагмент соответствует ССЦ, включающему один суперсегмент или один либо несколько сегментов. Границы такого ССЦ формально определяются абзацными отступами. Мы знаем (см. 2.2.1), что абзац и ССЦ — категории разные, но тем не менее в подавляющем числе случаев ССЦ начинается с абзацного отступа, хотя далеко не каждый такой отступ служит началом ССЦ. Возникает задача определить, насколько автосемантичным является первое предложение абзаца (верхняя граница ССЦ) и где формально заканчивается ССЦ (его нижняя граница). Решается эта задача путем использования аппарата суперсинтаксических связей — повторов, коннекторов, коннектиругощих маркеров (последние типа ниже излагается, в данной работе исследуются или данные свидетельствуют, результаты говорят и т. п.).

Процедура фрагментирования в рассматриваемом режиме сводится к следующему: началом ССЦ считается начало первого: абзаца документа. В режиме автоматического индексирования составляются поисковые образы предложений, которые последовательно попарно анализируются (сопоставляются) с целью обнаружения в них «пересечения» лексических повторов (при этом пересекающимися могут быть не обязательно синонимичные, но и, парадигматически связанные повторы) и коннекторов. Пара предложений считается коннектирующейся, относящейся к одному ССЦ, если содержит в себе хотя бы один повтор или (и) коннектор (табл. 3.4), в том числе и местоименный. Если при анализе очередной пары предложений во втором предложении этой пары не обнаруживаются элементы суперсинтаксических связей, т. е. появляется как бы синтаксически инородное предложение (такие случаи, по данным [21], в группе научных текстов достигают пример сто 16%), то сопоставительному анализу подвергается еще одно (последующее) предложение. Если и в этом предложении отсутствуют элементы связи с первым предложением анализируемой фразы, то это служит сигналом «обрыва» текста, т. е. конца ССЦ. Началом очередного ССЦ считается первый абзацный отступ, следующий за «обрывом». Таким образом, хотя формально ССЦ отождествлено нами с абзацем, в действительности оно включает обычно два и более абзаца (или части их — до «обрыва»).

Выведенные на печать ССЦ анализируются информационным работником с точки зрения разбиения ССЦ на сегменты (т. е. семантически). Так, например, в статье, приведенной в табл. 3.4, синтаксически выделено 5 ССЦ, среди которых семантически определено 8 сегментов, при этом сегменты а, б и в входят в состав суперсегмента III. Предложение 22, хотя по смыслу и связано с сегментом III, в, из-за недостатков в логике изложения материала формально в этот сегмент не включается. Для повышения самостоятельности фрагментов каждый сегмент в соответствии с правилом фрагментирования сопровождается заглавием статьи, из которой он извлечен.

С точки зрения прагматической пертинентными были признаны только два фрагмента (это объясняется тем, что статью анализировал один специалист — химик-органик из сектора изоляционных материалов) в рамках последнего (V) сегмента (предложения 41—46) при этом в структуре данного сегмента самостоятельными фрагментами для него были предложение 41 (рецептура лака со ссылкой на два литературных источника; в действительности это метаинформативная фраза) и предложения 42—46 (свойства лака ПЭ-970).

Описанный здесь «алгоритм» абзацного разбиения представлен и самом общем виде, причем применен к статье, достаточно легко поддающейся фрагментированию. В проанализированном нами потоке документов встречались значительно более сложные случаи. В одной из статей все предложения были «сцементированы» суперсинтаксической связью, и потому формальному разбиению на ССЦ такая статья не могла подвергнуться (см. пример 4). В других статьях вклинивающиеся «инородные» элементы состоят не из одного, а двух и более предложений. Наконец, семантически связанные предложения и сегменты могут находиться не только в контактной (т. е. следовать линейно друг за другом), но и в дистантной связи — в разных частях документа, при этом сегменты могут пересекаться, переплетаться и вкладываться один в другой (подробнее об этом виде связи см. в 2.2.1). Все это предъявляет к нашему «алгоритму» весьма серьезные требования, и для решения возникающих задач необходимы дальнейшие исследования в области синтаксиса текста и суперсинтаксических связей.

Несколько обнадеживает тот факт, что в нашем эксперименте статей с указанной сложной (переплетающейся) суперсинтаксической структурой встретилось лишь» 20% (4 из 20).

Второй подход формализованного фрагментирования основан на принципе выращивания (развертывания) смысловых фрагментов из релевантных предложений. Этот подход предполагает фрагментирование в режиме избирательного распределения информации (ИРИ). При вводе в систему массива текущих поступлений в нем производится поиск по постоянно действующим запросам не документов, а релевантных предложений (минимальных смысловых фрагментов, по терминологии И. С. Добронравова). Предложения, удовлетворяющие критерию соответствия, подвергаются затем процедуре наращивания за счет присоединения к ним других предложений текста, связанных с релевантным системой суперсинтаксических связей.

Так, например, на запрос «Способы определения ударной эластичности полимеров» в качестве исходного релевантного предложения машина выделила бы фразу 17.

Для оценки механических свойств полимеров были изучены релаксация напряжения (определяли по методике, описанной ранее [5], на приборе ППР-50) и ударная эластичность (по отскоку шарика на приборе ЭПР [5]) в зависимости от температуры.

На основе аппарата повторно-коннекториой связи исходное предложение выращивается до рамок следующего фрагмента (элементы аппарата выделены соответственно полужирным и разрядкой):

Ударную эластичность замеряли на образцах, изготовленных следующим образом. В пресс-формы с гнездами размером 120 X 15 X 10 мм заливали основу лака (продукт соконденсации) при 80—90° С, пресс-форму вакуумировали при остаточном давлении 10 мм рт. ст. и температуре100 С. Затем образец (в пресс-форме) подвергали термической обработке 160 С в течение 12 час. Такой режим соответствует термообработке, применяемой при использовании связующего для изоляции электрических машин.

Заключая изложение раздела о фрагментировании текстов, следует заметить, что этот процесс рассматривается нами в общем контексте с процедурами машинного реферирования (экстрагирования) и индексирования. Совмещение этих процедур в процессе одноразового ввода информации должно значительно повысить окупаемость затрат на предмашинную подготовку и перфорирование вводимых в автоматизированные системы научно-технической информации первичных документов. Еще более значительным представляется нам эффект выполнения указанных процедур в диалоговом режиме и на базе использования фотонабора. По-видимому, в этой связи должно формироваться новое направление в аналитико-синтетической переработке информации, которое можно определить как «квазисвертывание» в диалоговом режиме.

Свертывание в диалоговом режиме не только облегчит процедуру использования тезауруса в процессе индексирования документов и запросов, что уже достаточно широко применяется в диалоговых системах, но и расширит возможности манипулирования процессом экстрагирования информативных и метаинформативных фраз при подготовке и машинном постредактировании87 рефератов-экстрактов, позволит совместить во времени синтаксический, семантический и прагматический аспекты фрагментирования, наконец, откроет пути для создания так называемых квазиобзоров — документов, состоящих из тематически упорядоченных подборок фрагментов.

ГЛАВА 4


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: