S.E.Book (@S_E_Book): 🕸 Как зарождался Google. • Мало кто знает, что до появления поисковиков пользователь был … - Message #5828
S.E.Book
Copyright: @SEAdm1n

Вакансии: @infosec_work

Сотрудничество - @SEAdm1n

Обратная связь. Вопросы, предложения, пожелания, жалобы - @Social_Engineering_bot

РКН: https://vk.cc/cN3VGo
View in Telegram
Как зарождался Google.

Мало кто знает, что до появления поисковиков пользователь был вынужден заходить на FTP-серверы и вручную просматривать каждый документ, ориентируясь только на краткое описание. Вы не могли ввести куда-то запрос из серии: «Сколько весит слон?» и получить мгновенную пачку ответов. Проблему вызвался решить Алан Эмтейдж, который в 1990 году разработал первый в мире поисковик Archie на Unix.

Если кратко, Archie представлял собой набор скриптов, которые выполняли поиск по списку общедоступных FTP-серверов с использованием протокола Telnet и создавали индексные файлы. Пользователь вводил тему и получал в ответ список адресов в виде доступного каталога документов.

Вот некоторые примеры тех поисковых систем, которые появились в период с 1990 по 1998 год: Wandex (1993 год), Excite (1994 год), WebCrawler (1994 год), AltaVista (1995 год) и Yahoo (1995 год). Собственно, в то время, один из создателей Google Ларри Пейдж учился в университете, где пытался понять, почему тот или иной материал или сайт может быть полезен пользователю. Так как поисковики того времени не умели выдавать релевантные запросу результаты.

Пейдж представлял всю интернет-сеть в виде огромного разветвленного графа, в котором одни сайты ссылались на другие. А что, если присвоить вершинам графа (страницам на сайте) весовой коэффициент, в зависимости от количества входящих в него ребер (гиперссылок)? По идее, чем больше материал упоминается на других ресурсах, тем он полезнее для большинства. А следовательно, с большей вероятностью понравится и одному конкретному пользователю под похожий запрос.

В 1996 году Пейдж знакомится с Сергеем Брином — математиком, который достиг значительных успехов как раз в анализе огромных массивов данных. Их сотрудничество приводит к появлению алгоритма PageRank. Краеугольного камня современного веб-поиска, который учитывал не только количество раз, когда ключевое слово появлялось на веб-странице, но также качество и релевантность входящих ссылок.

В 1996 году Брин и Пейдж получают гранты по программе стипендии Национального научного фонда и запускают в работу проект BackRub. По сути, это был мощный веб-сканер, который должен был проиндексировать миллионы страниц, выявить все взаимосвязанные обратные ссылки и проверить алгоритм ранжирования.

Брин и Пейдж при посредничестве других выпускников Стэнфорда собрали на базе университетских серверов систему и запустили ее в работу летом 1996 года. При этом BackRub занимал примерно половину вычислительных ресурсов сети кампуса. К 29 августа 1996 система проиндексировала порядка 75 миллионов URL-адресов, загрузила 30 миллионов страниц и суммарно выкачала 207 Гб информации. Неудивительно, что университетская сеть несколько раз чуть не легла, а руководство Стэнфорда регулярно получало жалобы от пользователей.

Чтобы продемонстрировать результат работы поисковика, Пейдж и Брин разместили страницу по адресу google.stanford.edu и z.stanford.edu. Первыми пользователями были, разумеется, студенты Стэнфорда. И они были поражены, насколько быстро происходил поиск и ранжирование материалов в поисковой выдаче. Ну а дальше эффект сарафанного радио привел к тому, что к началу 1998 года на демонстрационную страницу приходило уже больше 10 000 запросов в день.

Пейдж и Брин решили, что из этого эксперимента может что-то получиться. 29 января 1998 года они публикуют статью The PageRank Citation Ranking: Bringing Order to the Web, которая перевернула представление о поиске в интернете.

После этого появляется еще одна их статья, которая станет одной из самых цитируемых в истории: The Anatomy of a Large-Scale Hypertextual Web Search Engine. В ней Сергей и Ларри подробно описали архитектуру и принципы работы поисковой системы Google. В ней рассматриваются ключевые аспекты: серверная инфраструктура, алгоритм PageRank для оценки релевантности веб-страниц, методы краулинга и индексации, а также подходы к обеспечению высокой производительности и масштабируемости системы. Эта работа заложила основу для создания современных поисковых систем.

#Разное
S.E.Book
Copyright: @SEAdm1n

Вакансии: @infosec_work

Сотрудничество - @SEAdm1n

Обратная связь. Вопросы, предложения, пожелания, жалобы - @Social_Engineering_bot

РКН: https://vk.cc/cN3VGo