Саратовский государственный технический университет
ПОИСКОВЫЕ ИНТЕРНЕТ СИСТЕМЫ
Методическое указание
к лабораторной работе по дисциплине «Информатика»
для студентов специальности 210601 и 210700.62
Одобрено
Редакционно-издательским советом
Саратовского государственного
технического университета
Саратов 2011
Цель работы: освоение навыков использования поисковых систем сети Интернет для получения информации.
1. ОСНОВНЫЕ ТЕОРЕТИЧЕСКОЕ ПОЛОЖЕНИЯ
Поисковыми системами называют один из сервисов сети Internet, позволяющий находить необходимую информацию по ключевым словам и словосочетаниям. Хорошо известными примерами являются: www.google.com; www.yandex.ru; www.rambler.ru; www.narod.ru; www.yahoo.com
Рассмотрим лингвистические особенности реализации поисковых систем. В них применяется очень специфичный язык – «язык спроса», то есть язык формулировки запросов пользователей. Его особенности:
1. 99.9% запросов являются нечеткими, то есть подразумевают несколько вариантов ответа
|
|
2. очень много запросов являются ошибочными
3. почти половина всех запросов состоит из одного слова
4. повторяемость запросов определяется таким параметром как частота запроса, т. е. ежемесячное количество обращений пользователей к данным запросам
5. все запросы имеют разную значимость, которая определяется смыслом запроса.
Значимость является субъективным фактором и во многом зависит от организации сайтов. Целью оптимизации сайта является достижение такой ситуации, когда ссылка на этот сайт устойчиво оказывается в числе первых 10 результатов поиска по избранному поисковому запросу. Вне зависимости от выбранной темы, языка или автора, как было установлено лингвистами, внутренняя структура текста остается неизменной и описывается законами Зипфа. Эти законы базируются на постулате: короткие слова встречаются в тексте чаще чем длинные.
Первый закон Зипфа (ранг-частота)
Частотой вхождения слова А называется число раз, которое оно встречается в тексте, её можно установить эмпирически. Отношение частоты вхождения слова к общему числу слов в тексте носит название вероятности. Порядковый номер частоты называется рангом частоты – В (наиболее часто встречаемое слово имеет ранг В=1, следующее по частое – 2 и т.д.).
(1)
М – общее число слов.
Таким образом, если самое распространенное слово встречается в тексте 100 раз, то следующее за ним по частоте слово будет встречаться 50-52 раза. Сангл=0,1; Срус=0,06-0,07.