Яндекс проиндексировал более 3 млрд. документов. Как на счет спама?
Не так давно, Яндекс преодолел планку 3 млрд. проиндексированных документов. Это много. Это очень много. Но вот вопрос, а что это за документы? Давайте проведем маленький опыт и постараемся узнать, что вообще индексирует Яндекс?
Вот анекдот, который рассказал Костя Каширин, в обсуждая как раз эту же тему:
Два товарища встретились. Один прямо изнывает:
- Чувак, я такой анекдот тебе сейчас расскажу, оборжешься!
- Ну давай!
- Идет по пустыне верблюд. Идет и срёт. И срёт он, и срёт, и срёт, и срёт.
И тут рассказчик понимает, что он забыл, что дальше. Он начинает тянуть время:
- И срёт верблюд, и срёт. И срё, понимаешь, и срёт!
Другу надоело это дело.
- Слушай, а в чем соль-то?
- А соли нет - одно гавно!
Я конечно не буду утверждать, что индекс Яндекса состоит исключительно из говна, но то, что говна там очень много это факт. Я думаю, что миллионов 500 говна там точно есть, а может и больше. Кстати, давайте определимся, что считать говном, а что нет. На мой взгляд, тут все очень просто. Дорвеи, пустые страницы, страницы ошибок, всевозможные логины и админки – все это говно, которому в индексе не место. И так, давайте посмотрим.
Вот несколько запросов, которые позволяют оценить степень заспамленности пс Яндекс. И это - только вершина айcберга, ибо мне просто лень копаться в этом говне. Я просто прошелся по таблеточкам. Обратите внимание, что запросы исключительно на английском языке.
- cheap phentermine
http://www.yandex.ru/yandsearch?text=cheap+phentermine
Результат поиска: страниц — 1 006 667, сайтов — не менее 5 461
- cheap viagra
http://www.yandex.ru/yandsearch?text=cheap+viagra
Результат поиска: страниц — 1 569 604, сайтов — не менее 5 769
- order viagra
http://www.yandex.ru/yandsearch?text=order+viagra&rpt=rad
Результат поиска: страниц — 1 109 606, сайтов — не менее 5 241
- xanax
http://www.yandex.ru/yandsearch?text=xanax
Результат поиска: страниц — 2 240 734, сайтов — не менее 4 764
- pills
http://www.yandex.ru/yandsearch?text=pills
Результат поиска: страниц — 2 733 268, сайтов — не менее 7 419
- buy cialis
http://www.yandex.ru/yandsearch?text=buy+cialis
Результат поиска: страниц — 1 619 585, сайтов — не менее 5 643
- Hydrocodone
http://www.yandex.ru/yandsearch?text=Hydrocodone
Результат поиска: страниц — 843 625, сайтов — не менее 4 175
- online pharmacy
http://www.yandex.ru/yandsearch?text=online+pharmacy
Результат поиска: страниц — 1 489 346, сайтов — не менее 7 271
- tramadol
http://www.yandex.ru/yandsearch?text=tramadol
Результат поиска: страниц — 1 995 817, сайтов — не менее 5 171
- (title[index of /]) && (Last modified)
http://www.yandex.ru/yandsearch?text=%28title%5Bindex+of+%2F%5D%29+%26%26+%28Last+modified%29
Результат поиска: страниц — 2 543 947, сайтов — не менее 8 986
И это я даже не стал брать разнообразный адалт и порнyxy. Сами попробуйте.
Ну дальше можно пройтись по ошибкам, логинам и админкам, но думаю и так ясно, что спама весьма много. Более того, 99% этого спама на английском. В Яндексе. И это в то время, когда тысячи вебмастеров стонут от того, что их БиП сайты то и дело вылетают из индекса, или индексируются крайне слабо.
Собственно это проблема не только и не сколько Яндекса, а скорее всех современных ПС. Спама в любой из них весьма много, и борьба с ним ведется. Так что пожелаем успехов в этом нелегком деле
Странно другое. Примерно год назад я проводил схожее исследование. По крайне мере в Яндексе ничего с тех пор не поменялось. И вот это грустно.
Если прикинуть количество бесполезных и спамных страниц, найденных в результате только этого небольшого исследования, то мы получи цифру около 17-ти млн. документов. Даже если представить, что половина из этих документов одни и те же, то все равно много. И повторюсь, это только цветочки.
Ноябрь 5th, 2007 - 01:31
Я думаю 20-30% документов – явный мусор.
Ноябрь 5th, 2007 - 14:14
Здесь дело просто в подходах – в Яндексе преобладает надежда на стук, плюс периодические ковровые бомбардировки с беспричинным выметанием из индекса сайтов в чем-то подозрительных полудуркам из Тындекса – ну как было с сайтами ссылающимися на КликКэш – только потому-что они неспособны бороться с дорами, льющими на эту партнерку они вышибли всех… Ну это как американцы в Ираке – чтобы свергнуть правительство, истребили население целой страны… Вместо того, чтобы совершенствовать алгоритмы поисковика, терроризируют веб-мастеров… Прям какая-то смесь американского фашизма и сАветськаго ВсеЗапретить – саакашизм поисковый! Гы… Я помню одно время смеялся, когда по фентермину доры в тындексе находил в топе… Мало того, они еще и в каталоге Тындекса были зарегистрированы…
Ноябрь 5th, 2007 - 17:04
яндекс ведь поисковик по русскому языку, не корректно приводить в пример анлоязычные запросы. в русскоязычных запросах спам есть,но не в таком кол-ве как вы пишете и результат борьбы с ним заметен.
Ноябрь 5th, 2007 - 18:32
И я про тоже, собственно
А дорами, где нет ни слова по русски обжирается по самые помидоры…
Ноябрь 6th, 2007 - 03:16
А что вы хотели, использовав самые популярные и дорогие запросы. Да на создание «говна» по этим запросам трудятся куча горе-сеошников. И на любой алгоритм отсечения доров появляется два способа создать новые доры.
Кстати, а где сравнение с Google по тем же ключевикам?
Ноябрь 7th, 2007 - 18:42
Да что вы от яндекса хотите? Никто же не говорит насколько тупое окошко от микрософта, все просто пользуются линуксом… вот и вы забейте на яшу и пользуйтесь загуглями!
Ноябрь 26th, 2007 - 20:23
А меня совсем недавно взяли бета-тестером для нового поисковика TrueKnowledge… вот за такими системами будущие!
Январь 25th, 2008 - 14:57
Да, 3 млрд это не мало, просто цифра порожает.
Апрель 9th, 2008 - 01:45
Как же задолбал спам!!!
Апрель 24th, 2008 - 16:06
спам бесит!!!
Апрель 25th, 2008 - 09:29
Классная страница, столько всего немусорного в комментариях просто образец для фильтра яшиного.
Апрель 25th, 2008 - 12:54
спамеры все заспамят если их неостановить
Апрель 25th, 2008 - 20:15
Спамщиков будет еще больше.Это только начало!
Май 14th, 2008 - 10:23
о соли нет,одно говно,бугага!
когда захожу в ящик,то говна 3/4,так что 3 млрд не показатель
Август 2nd, 2008 - 11:51
Правильно, не зря народ Гугла любит. Там точность поиска вообще отличная, не то что у Яши.
Сентябрь 13th, 2008 - 19:46
да на яндекле говна больше чем 500 лимонов это точно
Сентябрь 17th, 2008 - 17:31
Яндекс к сожалению становится помойкой, уж извените за резкость, но это так…
Сентябрь 25th, 2008 - 10:58
Все будет хорошо ребята, спам был и будет. Будте проще, еще глядишь чегонибудь изобретут от этого дела)
Сентябрь 25th, 2008 - 11:01
Да нечего не изобретут от этого, спаммеры тоже изобретательные люди)
Октябрь 2nd, 2008 - 13:27
да мусор один… меня бесит этот спам уже..
Октябрь 3rd, 2008 - 13:49
Спам был, Спам есть и спам будет. Ничего не поделать с этим, я так считаю.
Октябрь 16th, 2008 - 11:45
«Яндекс проиндексировал более 3 млрд. документов. Как на счет спама?»
Спама? Это мы запросто!
Ноябрь 4th, 2008 - 22:23
да, очень грустно. последнее время сателитов много, а кроме владельца они никому не нужны.
Ноябрь 8th, 2008 - 14:12
Я о существовании сателлитов узнала только прочитав статью а так они мне были незаметны.
Июнь 15th, 2010 - 18:29
прикольная инфа!!!