Как работают механизмы поиска

Характеристики- параметры поиска и поисковой системы

Автоматические индексы

Поисковые инструменты второго типа называют автоматическими индексами.

Их поисковые программы (называемые роботами) по URL-адресам документов и по ссылкам в этих документах постепенно обходят весь Интернет. Эти программы выполняют сбор статистической информации и построение словоуказателей, или индексов), по текстам документов. Собираемая роботом база данных - индекс - содержит сведения о том, в каких WWW-документах содержатся те или иные слова.

Именно такой автоматически собираемый индекс и лежит в основе поисковых систем – автоматических индексов. Поиск по ключевым словам в такой базе данных, занимающий максимум несколько секунд, приносит те же результаты, что и обшаривание всех WWW-страниц во всем Интернете

Автоматический индекс состоит из трех частей: программы- робота, собираемой этим роботом базы данных - индекса и интерфейса пользователя для поиска в этой базе. Все эти компоненты вполне могут функционировать автоматически, без вмешательства человека, отсюда название.

Поиск по ключевым словам требует сужения зоны поиска

Автоматических индексов WWW-страниц существует немало: WebCrawler, Lycos, Excite, Inktomi, Open Text и другие. Например, Lycos представляют собой предметного каталога и автоматического индекса. Alta Vista, хотя и не выходит за рамки традиционной структуры "робот - база данных - интерфейс поиска", является одним из самых мощных инструментов этого рода.

Сходный принцип действия имеет и система Archie, предназначенная для поиска файлов на анонимных FTP-узлах. Archie появился гораздо раньше, чем программы-роботы, путешествующие по WWW (так же как протокол FTP появился намного раньше WWW), поэтому система Archie не имеет одного владельца, а ее серверы разбросаны по всем миру.

Основные – Релевантность и Пертине́нтность.

Релева́нтность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа.

Пертине́нтность (лат. pertineo — касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.

Пример.

Если из десяти найденных документов 8 соответствуют запросу, но только 5 затребованы пользователем, то в результате поиска 8 релевантных документов и 5 пертине́нтных.

Поисковые cистемы обычно состоят из трех компонент:

  • агент (паук или кроулер), который перемещается по Сети и собирает информацию;
  • база данных, которая содержит всю информацию, собираемую пауками;
  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Cредства поиска (поисковые механизмы) типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы.

  • Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных.
  • Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
  • Кроулеры просматривают заголовки и возращают только первую ссылку.
  • Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

  1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
  2. Тэги, в которых эти слова располагаются.
  3. Местоположение искомых слов в документе.
  4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

  1. Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
  2. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Пошукові сервери (вони є інформаційними системами)

..........


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: