Засоби лінгвістичної підтримки

При обробці повнотекстових документів в системах текстового пошуку доводиться мати справу із засобами обробки природної мови. Ці засоби є досить складними і важливими функціональний компонент таких систем.

Засоби обробки природної мови в системах текстового пошуку дозволяють виділяти з аналізованих текстових документів і призначених для користувача запитів терми (слова, словосполучення або фрази) — носії їх змісту, виявляти залежності між цими термами, брати до уваги їх концептуальні зв'язки в контексті цієї предметної області, будувати на цій основі представлення документів, трансформувати пошукові запити користувачів в зручну для реалізації пошуку форму, здійснювати розширення запитів для підвищення повноти пошуку.

Для виконання вказаних функцій у більшості систем даного класу використовуються комплекси засобів лінгвістичної підтримки. Такий комплекс може включати різні словники, тезауруси, онтологічні специфікації предметної області системи.

Системні словники. У системах текстового пошуку, що мають справу з обробкою природної мови, можуть підтримуватися словники загальномовної лексики і лексики предметної області. Такі словники служать для морфологічного аналізу тексту, для забезпечення ототожнення слів в різних граматичних формах в процесі пошуку, а також для побудови деяких видів представлень документів і запитів.

Тезауруси. Важливу роль в аналізі і формуванні формалізованого представлення текстових документів грають спеціальні словники, що називаються тезаурусами. Тезаурус — це словник основних понять мови, що означають окремими словами або словосполученнями, з певними семантичними зв'язками між ними.

Тезаурус може бути загальномовним (наприклад, тезаурус російської мови) або орієнтованим на яку-небудь предметну область. Лексика тезауруса включає безліч слів і/або безліч фраз. Види підтримуваних семантичних зв'язків між ними можуть бути залежними або незалежними від конкретної предметної області. Зазвичай такі зв'язки визначають синоніми, омоніми, антоніми понять мови, підтримують між ними стосунки виду «ціле — частина», «рід — вид», «використовується для», «працює в» і так далі

Нині застосовуються два способи створення тезаурусів — ручний і автоматичний. Тезаурус, створений вручну, може бути універсальним, незалежним від конкретної колекції документів. Проте, на жаль, розробка тезауруса вручну є дуже дорогою, копіткою і трудомісткою справою, що вимагає значного часу. Тому на практиці часто використовують автоматичне створення тезаурусів. Методи рішення цієї задачі почали розроблятися ще на початку 60-х років минулого століття. Автоматичне створення тезаурусів здійснюється зазвичай на основі заданих колекцій текстових документів, тому такі тезауруси призначені для роботи саме з цими колекціями.

У системах, що використовують тезаурус, він дозволяє, наприклад, при пошуку за ключовими словами розширювати запит, включаючи в нього синоніми спочатку заданих користувачем ключових слів і забезпечуючи тим самим повніший пошук. Можуть бути ототожнені синоніми в документі і в запиті. Тезауруси також часто використовуються в процесі ручного або автоматичного індексування документів.

Онтології. Для адекватної інтерпретації користувачем і/або системою змісту текстових документів і пошукових запитів, представлених на природній мові, система повинна мати в розпорядженні контекст, який визначає основні поняття предметної області і різного роду семантичні зв'язки між ними. Цей опис не залежить від конкретних документів, що містяться в системних колекціях, і є специфікацією концептуалізації предметної області системи. Виражена явним чином така специфікація називається онтологією предметної області. Онтології отримали останніми роками широке поширення в різноманітних інформаційних системах, заснованих на знаннях, в інженерії" знань, в рішенні проблем семантичної інтеграції інформаційних ресурсів і так далі

Онтологія предметної області може підтримуватися в системі з різною мірою формализованности. У простому випадку вона представляється у вигляді деякого вербального опису. Тоді вона призначена для використання людиною на стадії індексування документів і при формулюванні запитів. У складнішому випадку онтологія представляється у формалізованому вигляді на мовах представлення знань, що допускають логічний висновок. Такі системи називають інтелектуальними.

Ще на ранній стадії розвитку систем текстового пошуку почали використовувати представлення онтології у формі ієрархічних класифікаторів. Такі описи на кожному ієрархічному рівні підтримують відношення еквівалентності на безлічі сутностей, що класифікуються, розбиття на класи, що попарно не перетинаються, що забезпечує його. При цьому сутності сусідніх рівнів ієрархії зазвичай знаходяться у відношенні «ціле — частина» або «рід — вид».

Інший неформальний спосіб опису онтології, який досить широко застосовується в системах текстового пошуку, — це представлення її у формі тезауруса предметної області системи.

Для формального опису онтології в розвинених системах використовуються мови логіки першого порядку. Вони допускають можливості логічного висновку. Досить широке поширення отримала для представлення онтології мова вказаної категорії KIF (Knowledge Interchange Format), розроблена на початку 1990-х років в Лабораторії систем знань (KSL) Стэнфордского університету.

Однією з останніх розробок, присвячених створенню засобів формального опису онтології, є стандарт мови визначення онтології для інформаційних ресурсів Веб — Web Ontology Language. Роботу над цим стандартом веде Робоча група по онтологиям для Веб консорціуму W3C. Вказана мова, поза сумнівом, знайде застосування в інтелектуальних системах пошуку інформаційних ресурсів в середовищі Веб другого покоління.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: