Jump to content
Sign in to follow this  
yourwebinua

Несуществующие страницы со снаком вопроса

Recommended Posts

Добрый день. Уже долго мучаюсь и не как не могу разобраться. Гугл тоже прошерстил, так и не нашел вменяемых ответов.

И собственно проблема.

 

Когда-то давно ставил на сайт модуль coolfilter который наплодил множество ссылок вида  /arhiv?coolfilter=o_16:107

Они все были заблокированы от индексации в robots.txt но тем немение яндекс упорно продолжает по ним ходить, а поскольку таких страниц тысячи - создается нагрузка на сервер (в яндекс вебмастере все эти страницы отмечены как заблокированые в роботсе, но яндекс бот регулярно их посещает). Уже больше полугода как удалил этот фильтр, а страницы упорно продолжают посещаться ботом (и что интересно они физически доступны если по ни перейти).

 

Во время поисков натолкнулся на инфу, что процентов 80 сайтов имеют такой косяк, что если после адреса поставить знак вопроса, и написать какуюто белиберду, то страничка на сайте прекрасно открывается и если дать на нее ссылку она индексируется поисковиком и будет считаться дублем.

 

Есть ли какой-нибуть способ правильно заблокировать такие страницы, или 404 на них сделать. Посути такие страницы физически доступны, и если сделать на них ссылку то поисковый бот по ней обязательно залезет туда. Бы ло бы таких страниц немного - нестрашно (в роботсе заблокировано), но если их несколько тысяч то идет конкретная нагрузка на сервер роботами.

Share this post


Link to post
Share on other sites
....

Уважаемый yourwebinua, есть такой тег canonicial, плюс sitenap.xml  и robots.txt

Они решают все вопросы

 

ПС все равно какой там параметр если canonicial есть "основной" страницы

Share this post


Link to post
Share on other sites

Уважаемый yourwebinua, есть такой тег canonicial, плюс sitenap.xml  и robots.txt

Они решают все вопросы

 

ПС все равно какой там параметр если canonicial есть "основной" страницы

все это реализовано - но данную проблему не решает, робот продолжает заходить на эти страницы регулярно.

Share this post


Link to post
Share on other sites

все это реализовано - но данную проблему не решает, робот продолжает заходить на эти страницы регулярно.

Поисковику устроены по принципу "хочу ВСЁ знать"

И ничего ты от них не "спрячешь" :)

Ходили и будут ходить. Они даже пытаются зайти в "закрытые" части сайтов и пытаются авторизоваться в формах (на предмет того что форма авторизации заполнена к примеру demo / demo), как "большой брат". Любую ссылку что они "увидели" обязательно посетят и будут ходить долго, даже если она 404 и заносить к СЕБЕ её содержимое, если отдается какой либо контент (а вдруг там ссылочки по которым можно пройти и что то новенькое схавать)

Плевали они на всё, на noindex, nofollow, robots.txt и т.п. (к примеру, проводил эксперимент, я удалил страницу, закрыл в роботс, отдает 404, но яша и геша регулярно её уже год как "посещают" (в логах отлично видно))

В robots.txt закрыто ? Если закрыто, в индексе не будет. Это самое главное.

Share this post


Link to post
Share on other sites

Поисковику устроены по принципу "хочу ВСЁ знать"

И ничего ты от них не "спрячешь" :)

Ходили и будут ходить. Они даже пытаются зайти в "закрытые" части сайтов и пытаются авторизоваться в формах (на предмет того что форма авторизации заполнена к примеру demo / demo), как "большой брат". Любую ссылку что они "увидели" обязательно посетят и будут ходить долго, даже если она 404 и заносить к СЕБЕ её содержимое, если отдается какой либо контент (а вдруг там ссылочки по которым можно пройти и что то новенькое схавать)

Плевали они на всё, на noindex, nofollow, robots.txt и т.п. (к примеру, проводил эксперимент, я удалил страницу, закрыл в роботс, отдает 404, но яша и геша регулярно её уже год как "посещают" (в логах отлично видно))

В robots.txt закрыто ? Если закрыто, в индексе не будет. Это самое главное.

Да в роботс закрыто и в индекс они не попадают, с этим все в порядке.

Тогда получается, что большая дырка в безопасности, встречал несколько статей, когда искал решение вопроса, что этим пользуются злоумышленники - покупают на такие несуществующие страницы на всяких сеопультах и сапе кучу ссылок нехороших на кучу таких вот страниц твоего сайта и это все добро индексируется во первых дубли, во вторых плохие ссылки и топят твой сайт. Блокировка в робот спасает от такого, но с нагрузкой проблема останется.

Я в принципе уже давно привык что сразу в роботс блокировать все где есть знак вопроса, но в опенкарт по умолчанию нету такого, да и надо еще постараться чтобы эти самые "злоумышленники" обратили внимание на твой сайт ).

Темнемение спасибо за общение. Будем искать дальше, может что накопаю.

Share this post


Link to post
Share on other sites

Да в роботс закрыто и в индекс они не попадают, с этим все в порядке.

Тогда получается, что большая дырка в безопасности, встречал несколько статей, когда искал решение вопроса, что этим пользуются злоумышленники - покупают на такие несуществующие страницы на всяких сеопультах и сапе кучу ссылок нехороших на кучу таких вот страниц твоего сайта и это все добро индексируется во первых дубли, во вторых плохие ссылки и топят твой сайт. Блокировка в робот спасает от такого, но с нагрузкой проблема останется.

Я в принципе уже давно привык что сразу в роботс блокировать все где есть знак вопроса, но в опенкарт по умолчанию нету такого, да и надо еще постараться чтобы эти самые "злоумышленники" обратили внимание на твой сайт ).

Темнемение спасибо за общение. Будем искать дальше, может что накопаю.

Да, есть такое дело. Конкуренты могут опустить сайт если захотят.

Любой сайт можно опустить :)

Купить не ликвидные ссылки на сайт конкурента с "порно" сайтов к примеру :)

Share this post


Link to post
Share on other sites

самый простой способ -через htacces

 

для ссылок с ?coolfilter - отдавать или  404 или 400

Share this post


Link to post
Share on other sites

самый простой способ -через htacces

 

для ссылок с ?coolfilter - отдавать или  404 или 400

точно - первое что напрашивается. спасибо - самый элементарный способ а как то не сообразил сходу, от существующих должно помочь избавиться.

Share this post


Link to post
Share on other sites

Может кому пригодиться кто заглянет в тему. добавил в .htaccess
RewriteCond %{QUERY_STRING} coolfilter=(.*)
RewriteRule ^ - [G]

теперь странички возвращают 410 - не существует, это должно заставить ботов перестать ходить куда не просят.

О результатах отпишусь).

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
You are posting as a guest. If you have an account, please sign in.
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

×

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.