Интернет журнал InterneR IT-ЖУРНАЛ: ИНТЕРНЕТ, ГАДЖЕТЫ, ТЕХНОЛОГИИ


4Ноя/07Off

Яндекс проиндексировал более 3 млрд. документов. Как на счет спама?

spamНе так давно, Яндекс преодолел планку 3 млрд. проиндексированных документов. Это много. Это очень много. Но вот вопрос, а что это за документы? Давайте проведем маленький опыт и постараемся узнать, что вообще индексирует Яндекс?
Вот анекдот, который рассказал Костя Каширин, в обсуждая как раз эту же тему:
Два товарища встретились. Один прямо изнывает:

- Чувак, я такой анекдот тебе сейчас расскажу, оборжешься!
- Ну давай!
- Идет по пустыне верблюд. Идет и срёт. И срёт он, и срёт, и срёт, и срёт.

И тут рассказчик понимает, что он забыл, что дальше. Он начинает тянуть время:

- И срёт верблюд, и срёт. И срё, понимаешь, и срёт!

Другу надоело это дело.

- Слушай, а в чем соль-то?
- А соли нет - одно гавно!

Я конечно не буду утверждать, что индекс Яндекса состоит исключительно из говна, но то, что говна там очень много это факт. Я думаю, что миллионов 500 говна там точно есть, а может и больше. Кстати, давайте определимся, что считать говном, а что нет. На мой взгляд, тут все очень просто. Дорвеи, пустые страницы, страницы ошибок, всевозможные логины и админки – все это говно, которому в индексе не место. И так, давайте посмотрим.

Вот несколько запросов, которые позволяют оценить степень заспамленности пс Яндекс. И это - только вершина айcберга, ибо мне просто лень копаться в этом говне. Я просто прошелся по таблеточкам. Обратите внимание, что запросы исключительно на английском языке.

  • cheap phentermine

    http://www.yandex.ru/yandsearch?text=cheap+phentermine

    Результат поиска: страниц — 1 006 667, сайтов — не менее 5 461

  • cheap viagra

    http://www.yandex.ru/yandsearch?text=cheap+viagra

    Результат поиска: страниц — 1 569 604, сайтов — не менее 5 769

  • order viagra

    http://www.yandex.ru/yandsearch?text=order+viagra&rpt=rad

    Результат поиска: страниц — 1 109 606, сайтов — не менее 5 241

  • xanax

    http://www.yandex.ru/yandsearch?text=xanax

    Результат поиска: страниц — 2 240 734, сайтов — не менее 4 764

  • pills

    http://www.yandex.ru/yandsearch?text=pills

    Результат поиска: страниц — 2 733 268, сайтов — не менее 7 419

  • buy cialis

    http://www.yandex.ru/yandsearch?text=buy+cialis

    Результат поиска: страниц — 1 619 585, сайтов — не менее 5 643

  • Hydrocodone

    http://www.yandex.ru/yandsearch?text=Hydrocodone

    Результат поиска: страниц — 843 625, сайтов — не менее 4 175

  • online pharmacy

    http://www.yandex.ru/yandsearch?text=online+pharmacy

    Результат поиска: страниц — 1 489 346, сайтов — не менее 7 271

  • tramadol

    http://www.yandex.ru/yandsearch?text=tramadol

    Результат поиска: страниц — 1 995 817, сайтов — не менее 5 171

  • (title[index of /]) && (Last modified)

    http://www.yandex.ru/yandsearch?text=%28title%5Bindex+of+%2F%5D%29+%26%26+%28Last+modified%29

    Результат поиска: страниц — 2 543 947, сайтов — не менее 8 986

И это я даже не стал брать разнообразный адалт и порнyxy. Сами попробуйте.

Ну дальше можно пройтись по ошибкам, логинам и админкам, но думаю и так ясно, что спама весьма много. Более того, 99% этого спама на английском. В Яндексе. И это в то время, когда тысячи вебмастеров стонут от того, что их БиП сайты то и дело вылетают из индекса, или индексируются крайне слабо.

Собственно это проблема не только и не сколько Яндекса, а скорее всех современных ПС. Спама в любой из них весьма много, и борьба с ним ведется. Так что пожелаем успехов в этом нелегком деле :)
Странно другое. Примерно год назад я проводил схожее исследование. По крайне мере в Яндексе ничего с тех пор не поменялось. И вот это грустно.

Если прикинуть количество бесполезных и спамных страниц, найденных в результате только этого небольшого исследования, то мы получи цифру около 17-ти млн. документов. Даже если представить, что половина из этих документов одни и те же, то все равно много. И повторюсь, это только цветочки.

Комментарии (25) Пинги (5)
  1. Я думаю 20-30% документов – явный мусор.

  2. Здесь дело просто в подходах – в Яндексе преобладает надежда на стук, плюс периодические ковровые бомбардировки с беспричинным выметанием из индекса сайтов в чем-то подозрительных полудуркам из Тындекса – ну как было с сайтами ссылающимися на КликКэш – только потому-что они неспособны бороться с дорами, льющими на эту партнерку они вышибли всех… Ну это как американцы в Ираке – чтобы свергнуть правительство, истребили население целой страны… Вместо того, чтобы совершенствовать алгоритмы поисковика, терроризируют веб-мастеров… Прям какая-то смесь американского фашизма и сАветськаго ВсеЗапретить – саакашизм поисковый! Гы… Я помню одно время смеялся, когда по фентермину доры в тындексе находил в топе… Мало того, они еще и в каталоге Тындекса были зарегистрированы…

  3. яндекс ведь поисковик по русскому языку, не корректно приводить в пример анлоязычные запросы. в русскоязычных запросах спам есть,но не в таком кол-ве как вы пишете и результат борьбы с ним заметен.

  4. яндекс ведь поисковик по русскому языку

    И я про тоже, собственно :)
    А дорами, где нет ни слова по русски обжирается по самые помидоры…

  5. А что вы хотели, использовав самые популярные и дорогие запросы. Да на создание «говна» по этим запросам трудятся куча горе-сеошников. И на любой алгоритм отсечения доров появляется два способа создать новые доры.
    Кстати, а где сравнение с Google по тем же ключевикам?

  6. Да что вы от яндекса хотите? Никто же не говорит насколько тупое окошко от микрософта, все просто пользуются линуксом… вот и вы забейте на яшу и пользуйтесь загуглями!

  7. А меня совсем недавно взяли бета-тестером для нового поисковика TrueKnowledge… вот за такими системами будущие!

  8. Да, 3 млрд это не мало, просто цифра порожает.

  9. Как же задолбал спам!!!

  10. Классная страница, столько всего немусорного в комментариях :) просто образец для фильтра яшиного.

  11. спамеры все заспамят если их неостановить

  12. Спамщиков будет еще больше.Это только начало!

  13. о соли нет,одно говно,бугага!
    когда захожу в ящик,то говна 3/4,так что 3 млрд не показатель

  14. Правильно, не зря народ Гугла любит. Там точность поиска вообще отличная, не то что у Яши.

  15. да на яндекле говна больше чем 500 лимонов это точно

  16. Яндекс к сожалению становится помойкой, уж извените за резкость, но это так…

  17. Все будет хорошо ребята, спам был и будет. Будте проще, еще глядишь чегонибудь изобретут от этого дела)

  18. Да нечего не изобретут от этого, спаммеры тоже изобретательные люди)

  19. да мусор один… меня бесит этот спам уже..

  20. Спам был, Спам есть и спам будет. Ничего не поделать с этим, я так считаю.

  21. «Яндекс проиндексировал более 3 млрд. документов. Как на счет спама?»

    Спама? Это мы запросто!

  22. да, очень грустно. последнее время сателитов много, а кроме владельца они никому не нужны.

  23. Я о существовании сателлитов узнала только прочитав статью а так они мне были незаметны.

  24. прикольная инфа!!!


Оставить комментарий

Вы должны войти в систему чтобы публиковать комментарии.