Зарождение идеи

В Стэнфорде Брин и профессор Раджив Мотвани, научный консультант Сергея, работали над проблемой извлечения информации из больших массивов данных. Они создали исследовательскую группу, которую назвали MIDAS (Mining Data at Stanford — «Стэнфордская программа по анализу и поиску информации»).

К методикам статистического анализа данных тогда прибегали главным образом для того, чтобы определить, какие сочетания продуктов покупатели приобретают в супермаркетах чаще всего и, соответственно, какие коррективы следует внести в схему размещения продуктов. Брин и Мотвани решили поэкспериментировать — применить эти методики к только-только появившемуся, неорганизованному Интернету.

К тому времени ученые, надеявшиеся черпать из Интернета информацию, быстро в нем разочаровались. Первые поисковые системы, призванные помогать осуществлять в Сети поиск (Web-Crawler, Lycos, Magellan, Infoseek, Excite, HotBot), не оправдали надежд. «Поисковые системы того времени не впечатляли, — вспоминает Мотвани. — Мы получали абсолютно бесполезный список сайтов».

Тем временем Джерри Янг и Дэвид Фило, докторанты Стэнфорда, готовившиеся к защите диссертации, взяли на вооружение несколько иной подход к поиску: они привлекли редакторов, которые составили каталог веб-сайтов в алфавитном порядке. Своей компании Янг и Фило дали название «Yahoo!». Их подход действительно упростил процесс поиска нужной информации, однако и он был несовершенен, а количество сайтов росло не по дням, а по часам.

Брин и Мотвани перепробовали множество других каталогов и поисковых систем, но всякий раз получали сотни или даже тысячи результатов в совершенно произвольной последовательности. Чтобы найти нужную информацию, им приходилось вручную отсеивать лишние ссылки, что отнимало уйму времени. Брин и Мотвани утвердились во мнении, что должен быть более совершенный способ поиска информации в Интернете.

Ларри Пейдж, работавший над проектом «Цифровые библиотеки», как-то случайно наткнулся в Сети на AltaVista, новую поисковую систему. Она выдавала результаты быстрее других поисковиков, и, кроме того, в ней была функция-новинка: помимо списка адресов веб-сайтов, на страницах с результатами поиска появлялись выделенные цветом слова — так называемые «ссылки». Это значительно ускоряло работу в Сети: пользователь, кликнув по выделенному в тексте слову или фразе, моментально попадал на другую веб-страницу, содержавшую больше информации на интересующую его тему. Пейдж задумался: а что же можно почерпнуть из анализа ссылок?

С помощью тщательного разбора Пейдж хотел выяснить, как еще можно использовать ссылки. Но для того, чтобы иметь возможность проверять свои предположения, ему нужно было обзавестись большой базой данных.

Выполнив необходимые расчеты, Пейдж заявил своему научному консультанту Гектору Гарсия-Молина, что собирается загрузить на свой компьютер всю Всемирную сеть. Эта идея казалась не столь дерзкой, сколь абсурдной. Но Пейдж, ничтоже сумняшеся, объявил, что загрузит весь Интернет довольно быстро и без особых проблем. Гарсия-Молина и его коллеги лишь снисходительно улыбнулись. Ларри, однако, был полон решимости осуществить задуманное.

Он не был одинок в оценке значимости ссылок: Тим Бернерс-Ли, британский специалист по компьютерным технологиям, который в 1989 году разработал Всемирную сеть, еще в начале 1980 годов утверждал, что, щелкая по выделенным словам, компьютерные пользователи смогут переходить с одной веб-страницы на другую, а ссылки будут ключевым элементом Сети.

Осенью 1996 года, объединив усилия, Пейдж и Брин приступили к загрузке и анализу веб-страниц со ссылками. На сбор информации ушло гораздо больше времени, чем предполагалось (Пейдж даже подсчитал, что каждая отправка программы-паука в Интернет стоила кафедре компьютерных технологий 20 тыс. долл.), но Ларри очень хотел довести начатое до конца.

У Пейджа возникла идея: подсчитав количество ссылок на отдельно взятый веб-сайт, можно было приблизительно определить степень его популярности. Да, популярность и содержание — это не одно и то же. Но и в его семье, и в семье Брина ценили опубликованные в научных журналах статьи, которые были снабжены ссылками на другие работы. Ссылки на веб-страницах напоминали Пейджу ссылки в статьях. Ученые ссылались на ранее опубликованные научные работы, изученные ими, и количество ссылок в научной среде служило мерилом влияния и авторитета автора.

«Ссылки очень важны, — говорил Пейдж. — Имена лауреатов Нобелевской премии фигурируют в ссылках десяти тысяч научных работ». Большое количество ссылок в научной литературе «говорит о значимости вашей работы, раз ее сочли необходимым упомянуть». То же можно сказать и о веб-сайтах, заключил Пейдж. Вскоре его осенила мысль: ссылки обладают разной степенью значимости! Одни являются более важными, другие — менее.

Больше веса, вероятно, имеют ссылки, размещенные на важных веб-сайтах. А как определить, какие сайты относятся к числу «важных», а какие — нет? Очень просто: сайты, на которые ведет большее количество ссылок, более значимы, и наоборот. Иными словами, веб-сайт, ссылка на который появляется на главной странице популярного поискового ресурса Yahoo!, автоматически становится более значимым.

Своей программе определения степени значимости ссылок Ларри дал название PageRank: page — это часть слова webpage (веб-страница) и одновременно его фамилия, a rank означает «ранжировать».

Брин и Мотвани тоже внесли свою лепту в развитие проекта. В итоге они получили программу ранжирования веб-страниц, попутно разрешив одну из главных проблем поиска информации в Сети. «Изначально они не ставили себе целью создать поисковую систему. Они просто работали над решением интересных задач, выдвигая интересные идеи, — говорит Мотвани. — Ларри что-то предлагал, Сергей что-то предлагал, я... И через какое-то время мы поняли, что можем создать поисковую систему».