Internet и информационное обеспечение пользователей

Вопрос информационного обеспечения с помощью Internet можно рассматривать не только с позиции удовлетворения пользователей ресурсами Internet, но и с точки зрения удовлетворения потребностей отдельных людей в знании тех или иных аудиторий с помощью Internet. Эти потребности в информации такого рода могут возникнуть, например, при формировании торговой сети или перед политическими выборами.

Поиск информации – это та задача, которую приходится решать каждому пользователю Internet. Если связываться с сетью через модем, то чем больше тратится времени на поиск, тем дороже стоит получаемая информация. Поэтому для поиска информации целесообразно использовать поисковые системы.

Данные системы ищут информацию по запросу пользователя. Поэтому важно как можно качественнее составить запрос. Его лучше всего составлять, зная, как поисковые системы будут его обрабатывать. Поэтому необходимо хотя бы в общих чертах знать, как система функционирует.

Все поисковые системы основываются на законах Зипфа. Любое слово имеет частоту вхождения в тексте (т.е. сколько раз оно встречается в тексте), а следовательно, и вероятность обнаружения в тексте. Каждой частоте соответствует ранг. Зипф установил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянная, а график для нее – это всегда равносторонняя гипербола. Значит, если самое распространенное слово встречается в тексте 100 раз, то частота вхождения второго будет с высокой долей вероятности на уровне 50.

Главная проблема заключается в том, как правильно выставить диапазон значимых слов. Каждая поисковая система решает эту проблему по-своему, руководствуясь общим объемом текста, специальными словарями.

Для того чтобы избавится от лишних слов и поднять рейтинг значимых слов, вводят инверсную частоту термина. Его значение тем меньше, чем чаще слово встречается в документах базы данных. Теперь каждому термину можно присвоить весовой коэффициент, ограничивающий его значимость.

Поисковая система может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей. В их качестве могут выступать не только отдельные слова, но и словосочетания.

Б. Мандребрат внес небольшие изменения в формулы Зипфа, добившись более точного соответствия теории практике. Без этих законов сегодня не обходится ни одна система автоматического поиска информации.

На эффективность поиска влияет чаще организация документов в базах данных. База данных должна взаимодействовать с пользовательским запросом.

Наиболее простой способ представить элементы базы данных в форме, удобной для многовариантного поиска, – создать матрицу «документ – термин». Если термин входит в документ, то в соответствующей клеточке ставится единица, иначе – ноль. Если в запросе имеется данный термин, то пользователю будут выданы соответствующие документы.

Другой способ – пространственно- векторное представление базы данных. Все документы базы данных размещаются в воображаемом пространстве. Координаты каждого документа зависят от структуры терминов, в нем содержащихся (от весовых коэффициентов, положения внутри документа, положения внутри документа, расстояния между терминами и т.п.). В результате окажется, что документы с похожим набором терминов разместятся в пространстве ближе друг к другу. Получив запрос, поисковая система удалит лишние слова, выделит термины и выделит вектор запроса в пространстве документов. Установив некоторый диапазон соответствия, система выдаст необходимые документы.

Пространственно-векторная модель лучше воспринимает запросы, составленные на естественном языке, чем матричная.

Это основы работы поисковой системы, хотя в реальности механизм индексации и структура базы данных значительно сложнее. Однако этих знаний уже достаточно, чтобы попытаться выработать оптимальную стратегию поиска информации в сети Internet.

Теперь, зная, как система выделяет ключевые слова, можно сформулировать оптимальный запрос. Допустим, имеется некий текст-источник и нужно найти в сети Internet документы схожего содержания и на данную тему. Если же задача существует только в голове, можно как можно качественнее изложить свое видение проблемы в виде сочинения. Это и будет текст-источник. Затем нужно провести анализ этого текста-источника следующим образом:

1. Удалить из текста стоп-слова.

2. Вычислить частоту вхождения каждого термина.

3. Расположить термины по убыванию их частоты вхождения.

4. Выбрать диапазон частот. Он должен лежать где-нибудь посередине. При этом следует ориентироваться на конкретный смысл текста.

5. Из выбранного диапазона выписываются термины. Если их много, то достаточно взять 10-20 терминов. При этом следует руководствоваться здравым смыслом. В список должны попасть и общие слова.

Теперь из отобранных терминов составляется запрос. Он должен пониматься машиной как слова, связанные логическим оператором ИЛИ. Затем запрос отправляется в поисковую систему.

В ответ можно получить несколько миллионов ссылок. Но если поисковая система ранжирует резервы, то на первых страницах окажутся практически стопроцентные релевантные документы.

Предлагаемый метод поиска нельзя назвать универсальным, далеко не все поисковые машины воспринимают его хорошо. Поисковая система должна обладать свойствами, чтобы применение этого метода было оправданно: способность понимать запросы, составленные на разных языках, и мощное ранжирование результатов.

Наилучшие результаты как на русском, так и на английском языках показала система Alta Vista. Очень хороший результат на английском языке показала система Hot Boot, тогда как запрос на русском языке поставил ее в тупик. Rambler представил хорошие результаты только после того, как логика запроса была изменена на И. Но логика И ведет к потере весовой части релевантных документов. Yandex отлично справился с поиском на английском языке, но русский был обработан слабее.

Данный метод позволяет получить наиболее полную информацию по интересующему вопросу. Предполагаемая методика поиска информации в Internet хорошо подходит для исчерпывающего обзорного поиска.

3 4 5 6 7 8 9

Подборка статей по вашей теме: