В Стэнфорде Брин и профессор Раджив Мотвани, научный консультант Сергея, работали над проблемой извлечения информации из больших массивов данных. Они создали исследовательскую группу, которую назвали MIDAS (Mining Data at Stanford — «Стэнфордская программа по анализу и поиску информации»).
К методикам статистического анализа данных тогда прибегали главным образом для того, чтобы определить, какие сочетания продуктов покупатели приобретают в супермаркетах чаще всего и, соответственно, какие коррективы следует внести в схему размещения продуктов. Брин и Мотвани решили поэкспериментировать — применить эти методики к только-только появившемуся, неорганизованному Интернету.
К тому времени ученые, надеявшиеся черпать из Интернета информацию, быстро в нем разочаровались. Первые поисковые системы, призванные помогать осуществлять в Сети поиск (Web-Crawler, Lycos, Magellan, Infoseek, Excite, HotBot), не оправдали надежд. «Поисковые системы того времени не впечатляли, — вспоминает Мотвани. — Мы получали абсолютно бесполезный список сайтов».
|
|
Тем временем Джерри Янг и Дэвид Фило, докторанты Стэнфорда, готовившиеся к защите диссертации, взяли на вооружение несколько иной подход к поиску: они привлекли редакторов, которые составили каталог веб-сайтов в алфавитном порядке. Своей компании Янг и Фило дали название «Yahoo!». Их подход действительно упростил процесс поиска нужной информации, однако и он был несовершенен, а количество сайтов росло не по дням, а по часам.
Брин и Мотвани перепробовали множество других каталогов и поисковых систем, но всякий раз получали сотни или даже тысячи результатов в совершенно произвольной последовательности. Чтобы найти нужную информацию, им приходилось вручную отсеивать лишние ссылки, что отнимало уйму времени. Брин и Мотвани утвердились во мнении, что должен быть более совершенный способ поиска информации в Интернете.
Ларри Пейдж, работавший над проектом «Цифровые библиотеки», как-то случайно наткнулся в Сети на AltaVista, новую поисковую систему. Она выдавала результаты быстрее других поисковиков, и, кроме того, в ней была функция-новинка: помимо списка адресов веб-сайтов, на страницах с результатами поиска появлялись выделенные цветом слова — так называемые «ссылки». Это значительно ускоряло работу в Сети: пользователь, кликнув по выделенному в тексте слову или фразе, моментально попадал на другую веб-страницу, содержавшую больше информации на интересующую его тему. Пейдж задумался: а что же можно почерпнуть из анализа ссылок?
С помощью тщательного разбора Пейдж хотел выяснить, как еще можно использовать ссылки. Но для того, чтобы иметь возможность проверять свои предположения, ему нужно было обзавестись большой базой данных.
|
|
Выполнив необходимые расчеты, Пейдж заявил своему научному консультанту Гектору Гарсия-Молина, что собирается загрузить на свой компьютер всю Всемирную сеть. Эта идея казалась не столь дерзкой, сколь абсурдной. Но Пейдж, ничтоже сумняшеся, объявил, что загрузит весь Интернет довольно быстро и без особых проблем. Гарсия-Молина и его коллеги лишь снисходительно улыбнулись. Ларри, однако, был полон решимости осуществить задуманное.
Он не был одинок в оценке значимости ссылок: Тим Бернерс-Ли, британский специалист по компьютерным технологиям, который в 1989 году разработал Всемирную сеть, еще в начале 1980 годов утверждал, что, щелкая по выделенным словам, компьютерные пользователи смогут переходить с одной веб-страницы на другую, а ссылки будут ключевым элементом Сети.
Осенью 1996 года, объединив усилия, Пейдж и Брин приступили к загрузке и анализу веб-страниц со ссылками. На сбор информации ушло гораздо больше времени, чем предполагалось (Пейдж даже подсчитал, что каждая отправка программы-паука в Интернет стоила кафедре компьютерных технологий 20 тыс. долл.), но Ларри очень хотел довести начатое до конца.
У Пейджа возникла идея: подсчитав количество ссылок на отдельно взятый веб-сайт, можно было приблизительно определить степень его популярности. Да, популярность и содержание — это не одно и то же. Но и в его семье, и в семье Брина ценили опубликованные в научных журналах статьи, которые были снабжены ссылками на другие работы. Ссылки на веб-страницах напоминали Пейджу ссылки в статьях. Ученые ссылались на ранее опубликованные научные работы, изученные ими, и количество ссылок в научной среде служило мерилом влияния и авторитета автора.
«Ссылки очень важны, — говорил Пейдж. — Имена лауреатов Нобелевской премии фигурируют в ссылках десяти тысяч научных работ». Большое количество ссылок в научной литературе «говорит о значимости вашей работы, раз ее сочли необходимым упомянуть». То же можно сказать и о веб-сайтах, заключил Пейдж. Вскоре его осенила мысль: ссылки обладают разной степенью значимости! Одни являются более важными, другие — менее.
Больше веса, вероятно, имеют ссылки, размещенные на важных веб-сайтах. А как определить, какие сайты относятся к числу «важных», а какие — нет? Очень просто: сайты, на которые ведет большее количество ссылок, более значимы, и наоборот. Иными словами, веб-сайт, ссылка на который появляется на главной странице популярного поискового ресурса Yahoo!, автоматически становится более значимым.
Своей программе определения степени значимости ссылок Ларри дал название PageRank: page — это часть слова webpage (веб-страница) и одновременно его фамилия, a rank означает «ранжировать».
Брин и Мотвани тоже внесли свою лепту в развитие проекта. В итоге они получили программу ранжирования веб-страниц, попутно разрешив одну из главных проблем поиска информации в Сети. «Изначально они не ставили себе целью создать поисковую систему. Они просто работали над решением интересных задач, выдвигая интересные идеи, — говорит Мотвани. — Ларри что-то предлагал, Сергей что-то предлагал, я... И через какое-то время мы поняли, что можем создать поисковую систему».