Обработка документов

Распространяясь по каналам коммуникаций, документы оседают в массивах — неких собраниях документов, вливаясь в уже сформированную ранее их совокупность. Оптимальная работа с документами в массивах возможна лишь после предварительной их обработки. Аналитико-синтетическая обработка документов производится с целью свертывания информации о форме и содержании документа до уровня буквенно-цифрового шифра, библиографического описания, аннотации, реферата, научного перевода, обзора, а также включает извлечение из документов фактов, сведений, данных и фиксации их в специальных формах.

Обработка способствует упорядочению, систематизации, контролю за поступающими документами, свертыванию информации, в силу чего содержание документа может быть

представлено в более компактной форме, созданию поискового образа документа, в соответствии с которым возможно его разыскание в массиве, подготовке документа к хранению и последующему использованию.

Некоторые процессы аналитико-синтетической обработки носят характер предмашинной обработки, т.е. представляют собой совокупность действий, необходимых для подготовки документов и информации к вводу в память компьютера.

Обработка документа включает следующие подпроцессы:

• описание;

• классифицирование и индексирование, пред метизация;

• аннотирование и реферирование;

• микрофильмирование.

Библиографическое описание — это совокупность библиографических сведений о документе, приведенных по установленным правилам и предназначенных для его идентификации и общей характеристики.

Систематизация преследует цель распределить поступающий материал по определенным, заранее заданным признакам, соответствующим той или иной классификации. Каждая из современных наук имеет или развивает свою частную дисциплину, изучающую специально вопросы систематизации соответствующих объектов познания. Такие дисциплины носят самые различные названия: типология, систематика, таксономия, теория классификации и др. Но суть их одна — систематизировать определенные объекты в целях более рационального познания.

Классификация фиксирует закономерные связи между классами объектов с целью определения места объекта в системе, которое указывает на его свойства. Строго и четко проведенная классификация одновременно подытоживает результаты предшествующего развития данной отрасли и вместе с тем отмечает начало нового этапа в ее развитии.

Классификация - система соподчинённых понятий (классов, объектов) какой-либо области знания или деятельности человека, часто представляемая в виде различных по форме схем, (таблиц) и используемая как средство для установления связей.между этими понятиями или классами объектов, а также для ориентировки в многообразии понятий или соответствующих Объектов.

Классифицирование (распределение документов по классам) сопровождается индексированием — проставлением условных обозначений, соответствующих подразделениям принятой классификации. Идентичные шифры присваиваются ограниченному количеству документов, обладающих идентичными сторонами: принадлежащих к одной отрасли знания, предметной области, имеющих единую типовую форму, функциональное предназначение и т.д. Таким образом, достигается обособление небольшого количества документов, зашифрованных одним обозначением, логическая последовательность обозначений способствует структурированию массива. Индексирование должно проводиться на основе непосредственного анализа документа с учетом характера информационно-поискового массива, элементом которого становится поисковый образ документа (ПОД), характера информационных потребностей пользователей данной информационно-поисковой системы (ИПС) в соответствии с общими принципами индексирования и особенностями их применения в конкретной организации.

В зависимости от задач поиска применяются различные принципы классифицирования документов, которые можно объединить в две большие группы: формальные и содержательные. К формальным классификациям относятся классификации документов по их собственным признакам, таким, например, как функции документа, размеры, степень маши-ночитаемости, материал, на котором документ изготовлен и т.д. Содержательные классификаторы используются для систематизации и поиска содержащейся в документах информации. Содержательные классификационные системы, используемые для систематизации и поиска документов и содержащейся в них информации, условно делят на несколько групп в зависимости от степени иерархичности. Основные понятия классификаций иерархического типа — это вид и род, служащие для выражения отношений между классами. Из двух классов тот, что содержит в себе другой, — называется родом, а тот, что содержится — видом. В свою очередь вид может рассматриваться в качестве рода для входящих в него подвидов. В подобных системах классификаций может содержаться несколько уровней иерархии. Их преимущество состоит в простоте

индексирования и поиска. Такая классификация наиболее эффективна в том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменяется (т.е. предметы естественно находятся в жесткой иерархической соподчиненности).

Разновидностью иерархических являются десятичные классификации, используемые для систематизации содержания документов. Десятичными они называются потому, что области знания разбиты на десять классов, каждая из которых получает свой порядковый номер. Каждый выделенный класс служит родом для входящих в него видов, количество которых также равно десяти. Шифр заклассифицированного документа состоит из такого количества цифр, сколько в классификации уровней иерархии. Порядок следования цифр - от высших уровней иерархии к низшим. Иерархические классификации часто сочетаются с фасетными. Через двоеточие к основному шифру документа добавляются индексы фасет, уточняющие его форму, предназначение, особенности вида и т.д. Примерами таких классификаций служат Универсальная десятичная классификация (УДК), Библиотечно-библиографическая классификация (ББК), Международная классификация изобретений (МКИ) и др.

Алфавитно-предметная классификация — система классов предметных рубрик, каждая из которых соответствует определенной теме или одному виду предметов, причем предметные рубрики расположены в алфавитном порядке имен этих предметов. Например, предметы, процессы, объекты, без следования естественной их зависимости. Естественным языкам присуща синонимия, в силу чего близкие по смыслу, но разные По написанию понятия могут оказаться в разных местах такой классификационной схемы. Поэтбму основная проблема ал-фавитно-предметных классификаций в ее устранении и в обозначении парадигматических связей между названиями предметов и тем, что преодолевается с помощью ссылок и отсылок. Таким образом, в едином алфавитном ряду перечисляются предметы, не связанные ни общностью содержания, ни процессами деятельности. На первый план выходит формальный -признак — алфавит предметных рубрик, что значительно облегчает поиск нужного документа.

Таким образом, подпроцессом обработки документа выступает предметизация определение предметных рубрик для документа в соответствии с его содержанием. Подобные классификации используются в предметных каталогах, а также как вспомогательное поисковое средство в традиционных и электронных информационно-поисковых системах.

В результате обработки документов создается их поисковый образ — выделение ряда признаков, по которым документ можно однозначно идентифицировать, установить его форму и содержание, местонахождение в документном массиве. Это — обязательная процедура, предшествующая использованию, ибо в противном случае документ невозможно будет отыскать. Создаваемый ПОД представляет собой извлеченную и свернутую до различной степени информацию о документе, который получает после этой процедуры название первичной информации (первичного документа), а ПОД — вторичной. Таким образом, вторичная информация — это результат анали-тико-синтетической переработки первичной. Вторичная информация более компактна, более формализована, в силу этого более мобильна и более экономна в движении по системам коммуникаций. Из нее легко формируется информационно-поисковый массив, служащий базой для поиска информации о документах.

Обработка различается в зависимости от ее направленности на весь документ, в единстве формы и содержания, и на его структурную часть — текст. В силу этого выделяется документная обработка, в результате которой документ получает идентификационные признаки (библиографическое описание, классификационный шифр, инвентарный номер и т.д.), и информационная обработка, предполагающая манипуляции с текстом документа. В процессе такой информационной обработки текст может быть сокращен, переведен на другой язык, сделана аннотация, реферат, обзор, тезисы, резюме. В результате получается еще один текст, связанный с оригиналом идентификационными признаками. Он более компактен, отражает его содержание и может быть использован вместо оригинала. Аннотация — краткая характеристика документа, его части или совокупности документов с точки зрения назначения, содержания, формы, других особенностей. В отличие от

аннотации, реферат — сокращенное изложение содержания документа (или его части) с основными фактическими сведениями и выводами. Он акцентирует внимание на новых сведениях и определяет целесообразность обращения к документу.

Все подпроцессы аналитико-синтетической обработки требуют творческого участия специалиста. Только человек может глубоко вникнуть в текст, выявить его глубинные взаимосвязи, оценить значимость. Но современные компьютерные средства позволяют эти операции частично формализовать, что дает возможность освободить специалиста от трудоемких рутинных операций, более эффективно организовать поиск документов в большом массиве, увеличить скорость обработки и степень релевантности.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: