Первый закон Зипфа (ранг-частота)

1 2

Саратовский государственный технический университет

ПОИСКОВЫЕ ИНТЕРНЕТ СИСТЕМЫ

Методическое указание

к лабораторной работе по дисциплине «Информатика»

для студентов специальности 210601 и 210700.62

Одобрено

Редакционно-издательским советом

Саратовского государственного

технического университета

Саратов 2011

Цель работы: освоение навыков использования поисковых систем сети Интернет для получения информации.

1. ОСНОВНЫЕ ТЕОРЕТИЧЕСКОЕ ПОЛОЖЕНИЯ

Поисковыми системами называют один из сервисов сети Internet, позволяющий находить необходимую информацию по ключевым словам и словосочетаниям. Хорошо известными примерами являются: www.google.com; www.yandex.ru; www.rambler.ru; www.narod.ru; www.yahoo.com

Рассмотрим лингвистические особенности реализации поисковых систем. В них применяется очень специфичный язык – «язык спроса», то есть язык формулировки запросов пользователей. Его особенности:

1. 99.9% запросов являются нечеткими, то есть подразумевают несколько вариантов ответа

2. очень много запросов являются ошибочными

3. почти половина всех запросов состоит из одного слова

4. повторяемость запросов определяется таким параметром как частота запроса, т. е. ежемесячное количество обращений пользователей к данным запросам

5. все запросы имеют разную значимость, которая определяется смыслом запроса.

Значимость является субъективным фактором и во многом зависит от организации сайтов. Целью оптимизации сайта является достижение такой ситуации, когда ссылка на этот сайт устойчиво оказывается в числе первых 10 результатов поиска по избранному поисковому запросу. Вне зависимости от выбранной темы, языка или автора, как было установлено лингвистами, внутренняя структура текста остается неизменной и описывается законами Зипфа. Эти законы базируются на постулате: короткие слова встречаются в тексте чаще чем длинные.

Первый закон Зипфа (ранг-частота)

Частотой вхождения слова А называется число раз, которое оно встречается в тексте, её можно установить эмпирически. Отношение частоты вхождения слова к общему числу слов в тексте носит название вероятности. Порядковый номер частоты называется рангом частоты – В (наиболее часто встречаемое слово имеет ранг В=1, следующее по частое – 2 и т.д.).

(1)

М – общее число слов.

Таким образом, если самое распространенное слово встречается в тексте 100 раз, то следующее за ним по частоте слово будет встречаться 50-52 раза. С_англ=0,1; С_рус=0,06-0,07.