• Мало кто знает, что до появления поисковиков пользователь был вынужден заходить на FTP-серверы и вручную просматривать каждый документ, ориентируясь только на краткое описание. Вы не могли ввести куда-то запрос из серии: «Сколько весит слон?» и получить мгновенную пачку ответов. Проблему вызвался решить Алан Эмтейдж, который в 1990 году разработал первый в мире поисковик Archie на Unix.
• Если кратко, Archie представлял собой набор скриптов, которые выполняли поиск по списку общедоступных FTP-серверов с использованием протокола Telnet и создавали индексные файлы. Пользователь вводил тему и получал в ответ список адресов в виде доступного каталога документов.
• Вот некоторые примеры тех поисковых систем, которые появились в период с 1990 по 1998 год: Wandex (1993 год), Excite (1994 год), WebCrawler (1994 год), AltaVista (1995 год) и Yahoo (1995 год). Собственно, в то время, один из создателей Google Ларри Пейдж учился в университете, где пытался понять, почему тот или иной материал или сайт может быть полезен пользователю. Так как поисковики того времени не умели выдавать релевантные запросу результаты.
• Пейдж представлял всю интернет-сеть в виде огромного разветвленного графа, в котором одни сайты ссылались на другие. А что, если присвоить вершинам графа (страницам на сайте) весовой коэффициент, в зависимости от количества входящих в него ребер (гиперссылок)? По идее, чем больше материал упоминается на других ресурсах, тем он полезнее для большинства. А следовательно, с большей вероятностью понравится и одному конкретному пользователю под похожий запрос.
• В 1996 году Пейдж знакомится с Сергеем Брином — математиком, который достиг значительных успехов как раз в анализе огромных массивов данных. Их сотрудничество приводит к появлению алгоритма PageRank. Краеугольного камня современного веб-поиска, который учитывал не только количество раз, когда ключевое слово появлялось на веб-странице, но также качество и релевантность входящих ссылок.
• В 1996 году Брин и Пейдж получают гранты по программе стипендии Национального научного фонда и запускают в работу проект BackRub. По сути, это был мощный веб-сканер, который должен был проиндексировать миллионы страниц, выявить все взаимосвязанные обратные ссылки и проверить алгоритм ранжирования.
• Брин и Пейдж при посредничестве других выпускников Стэнфорда собрали на базе университетских серверов систему и запустили ее в работу летом 1996 года. При этом BackRub занимал примерно половину вычислительных ресурсов сети кампуса. К 29 августа 1996 система проиндексировала порядка 75 миллионов URL-адресов, загрузила 30 миллионов страниц и суммарно выкачала 207 Гб информации. Неудивительно, что университетская сеть несколько раз чуть не легла, а руководство Стэнфорда регулярно получало жалобы от пользователей.
• Чтобы продемонстрировать результат работы поисковика, Пейдж и Брин разместили страницу по адресу
google.stanford.edu и z.stanford.edu. Первыми пользователями были, разумеется, студенты Стэнфорда. И они были поражены, насколько быстро происходил поиск и ранжирование материалов в поисковой выдаче. Ну а дальше эффект сарафанного радио привел к тому, что к началу 1998 года на демонстрационную страницу приходило уже больше 10 000 запросов в день.• Пейдж и Брин решили, что из этого эксперимента может что-то получиться. 29 января 1998 года они публикуют статью The PageRank Citation Ranking: Bringing Order to the Web, которая перевернула представление о поиске в интернете.
• После этого появляется еще одна их статья, которая станет одной из самых цитируемых в истории: The Anatomy of a Large-Scale Hypertextual Web Search Engine. В ней Сергей и Ларри подробно описали архитектуру и принципы работы поисковой системы Google. В ней рассматриваются ключевые аспекты: серверная инфраструктура, алгоритм PageRank для оценки релевантности веб-страниц, методы краулинга и индексации, а также подходы к обеспечению высокой производительности и масштабируемости системы. Эта работа заложила основу для создания современных поисковых систем.
#Разное
Copyright: @SEAdm1n
Вакансии: @infosec_work
Сотрудничество - @SEAdm1n
Обратная связь. Вопросы, предложения, пожелания, жалобы - @Social_Engineering_bot
РКН: https://vk.cc/cN3VGo
Вакансии: @infosec_work
Сотрудничество - @SEAdm1n
Обратная связь. Вопросы, предложения, пожелания, жалобы - @Social_Engineering_bot
РКН: https://vk.cc/cN3VGo