Интернет журнал InterneR IT-ЖУРНАЛ: ИНТЕРНЕТ, ГАДЖЕТЫ, ТЕХНОЛОГИИ


22Окт/07Off

Первые поисковые системы

Wandex

В июне 1993 года, Мэтью Грей представил первого сетевого робота - «World Wide Web Wanderer». Сначала он хотел просто измерять рост сети и создал робота для подсчета активных веб-серверов. Затем он модернизировал программу для сбора действующих адресов URL. Его база данных была известна под именем «Wandex».

Система принесла столько же проблем, сколько и решений, потому что она тормозила при открытии тех же страниц по сотни раз на день. Ему не понадобилось много времени, чтобы отладить эту программу, но люди стали задавать себе вопросы о ценности роботов.

ALIWEB

В октябре 1993 года, в ответ на «Wandex», Мартин Костер создал «Indexing of the Web», систему похожую на Archie, которая так же известна как ALIWEB. ALIWEB просматривал метаинформацию, и позволял пользователям добавлять свои страницы, которые индексировались с их собственным описанием.

Это говорило об отсутствии необходимости робота для сбора данных, и использовании широкополосного доступа для роботов. С другой стороны, такой подход имел свой недостаток, так как многие люди просто не знали об ALIWEB, и не добавляли туда свои сайты.

Стандарт ограничений поисковых роботов

Мартин Костер также руководит проектом The Web Robots Pages посвященным разработке стандартов того, каким образом должны поисковые роботы индексировать или не индексировать содержимое страниц в сети. Это позволяет веб-мастерам препятствовать поисковым системам полностью или частично индексировать их сайты.

Дело в том, что если ваша информация находится на публичном веб-сервере, и другие вебмастера ссылаются на этот сайт, робот поисковой системы пройдет по этим ссылкам и полностью проиндексирует весь ваш сайт, включая те страницы, которые вы бы и не хотели делать общедоступными.

Забегая вперед стоит отметить, что в 2005 г. Google возглавил крестовый поход против спама комментариев в блогах и создал атрибут nofollow для HTML тега <a>, что позволяет применять его на уровне отдельных ссылок, а не запрета индексации всего документа в целом. В последствии, Google быстро изменил узкую сферу применения этого атрибута лишь для блогов, претендуя на то, чтобы вебмастера применяли этот атрибут во всех ссылках на своих сайтах, если они не могут контролировать их появления, и не могут гарантировать что ссылки не являются спамом.

Примитивный поиск

К декабрю 1993 года, три полностью состоявшихся робота, обеспечивающих поисковые машины информацией, появились в сети: JumpStation, World Wide Web Worm и Repository-Based Software Engineering (RBSE). Робот JumpStation собирал информацию о заголовках с веб страниц, что позволяло осуществлять простой линейный поиск по индексу. Но с ростом сети, система JumpStation постепенно прекратила свое существование.

Паук системы World Wide Web Worm индексировал заголовки и адреса URL. Проблема как JumpStation, так и World Wide Web Worm была в том, что они выдавали пользователю проиндексированные ими страницы в том порядке, в котором их поисковые роботы их нашли в сети, без всяких ограничений или ранжирования. В свою очередь система RSBE уже пыталась создать некую модель ранжирования документов в своем индексе.

Так как ранние поисковые алгоритмы не достаточно адекватно анализировали ссылки и не кэшировали содержание веб страниц полностью, если вы не знали точного названия того, что вы ищете, найти это было очень трудно.

Excite

Excite
Excite берет свое начало из проекта Architext, который был создан в феврале 1993 шестью студентами последнего курса в Стэнфорде. У них была идея использования статистического анализа отношений слов в документах, чтобы сделать поиск более эффективным. Вскоре их проект профинансировали и к середине 1993 они выпустили первые копии своей программы поиска для использования на веб сайтах.

В феврале 1999 Excite был куплен крупномасштабным провайдером @Home за 6.5 млн. долларов США, и получил название Excite@Home. В октябре 2001 Excite@Home обанкротился. InfoSpace выкупила Excite у суда по делам несостоятельности за 10 млн. долларов США.

В следующем материале в цикле статей История поисковых машин речь пойдет о первых каталогах сайтов и их конкуренции с первыми поисковыми системами. Напоминаю, что статьи в этой серии публикуются каждые два дня, так что не пропустите следующий материал :)

Комментарии (1) Пинги (1)
  1. Да уж! Работа оптимизаторов со временем становится более сложной.
    Так в 90-е годы можно было выехать на ключевых словах в мета тэгах и титле, с чем вполне справлялся 1 человек.
    Сейчас же над раскручиваемым сайтом как правило работает целая команда разных специалистов.


Оставить комментарий

Вы должны войти в систему чтобы публиковать комментарии.