Одной из оптимальных и перспективных форм представления предметной области считается тезаурусное описание

Эффективность ИП зависит от знания особенностей представления материалов в информационном массиве, от правильного и полного понимания предметной области и правильного его представления.

Нормализация (сведение воедино) всех вариантов одного и того же слова.

Разрешение омонимии;

Контроль синонимии;

При индексировании документов и запросов ключевыми словами, т.е. терминами, взятыми непосредственно из индексируемых текстов, возникла потребность в лексическом контроле (ЛК) за словарным составом ИПЯ.

Развитие автоматизированных ИПС в основном оказалось связано с ИПЯ дескрипторного типа.

Открытость (возможность пополнения и корректировки лексических средств языка).

Однозначность (каждая запись на ИПЯ имеет один смысл, и каждое понятие получает единообразное представление средствами ИПЯ);

Достаточная семантическая сила (способность полно и точно описывать основную тему (темы) документов и запросов);

ИПЯ дескрипторного типа, в основе которых лежит перечень лексических единиц в виде слов или словосочетаний;

ИПЯ классификационного типа, в основе которых лежит систематическая классификация понятий (например, УДК, ББК);

Между документальными и фактографическими системами нет непреодолимой разницы.

Информационный поиск

Разновидностью документального поиска с элементами фактографии можно считать библиографический поиск, осуществляемый по элементам библиографического описания документов (год, место издания, вид издания, автор и т.п.). Документы, хранимые в документальных ИПС, и представляют собой, как правило, библиографические описания с рефератами. Запрос к таким массивам может носить вполне фактографический характер.

Например: выдать сведения о книгах (признак «вид издания» = монографический) такого-то автора (признак «автор» равняется фамилии автора) за последние 5 лет (признак «год издания»).

Информационный поиск

Поскольку в основе информационного поиска лежит сопоставление информации, содержащейся в документах и запросах, возникает проблема представления содержания документов и запросов в поисковой системе.

Для этого создаются информационно-поисковые языки (ИПЯ) — специализированные языки, предназначенные для описания главных тем и формальных характеристик документов и запросов с целью последующего их сопоставления.

Информационный поиск

Все ИПЯ, применяемые в современных автоматизированных ИПС, условно можно разделить на три типа:

3) ИПЯ объектно-признакового типа, в основе которых лежат модели знаний об объектах в конкретных предметных областях, описанные в терминах «признак — значение».

Информационный поиск

К идеальному ИПЯ предъявляются следующие основные требования:

Информационный поиск

Основная цель ЛК — обеспечить однозначное представление понятий в документе и запросе вне зависимости от способа выражения их в текстах.

Суть ЛК, осуществляемого с помощью тезауруса, в основном сводится к следующему:

Информационный поиск

Контроль синонимии является, может быть, главной функцией ЛК в ИПС. Он заключается в том, что все близко- или однозначные единицы заменяются одним и тем же лексическим вариантом.

В число синонимов включаются:

l полные синонимы (языкознание – лингвистика);

l фонетические (графические) варианты слов (диереза – диэреза);

l аббревиатуры (ЛСВ – лексико-семантический вариант);

l слова, совпадающие по смыслу в одном из значений (компьютер — машина).

Информационный поиск

Основу большинства современных информационных массивов составляет словарь, объединяющий соответствующие понятия и термины.

Тезаурусное описание

Тезаурус – понятийно-терминологический справочник, в котором отражены различного рода связи между элементами (терминами и понятиями).

! + Тезаурус – словарь-«сокровищница» (Даль, Словарь латинского языка…)


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: