Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Несуществующие страницы со снаком вопроса


Recommended Posts

Добрый день. Уже долго мучаюсь и не как не могу разобраться. Гугл тоже прошерстил, так и не нашел вменяемых ответов.

И собственно проблема.

 

Когда-то давно ставил на сайт модуль coolfilter который наплодил множество ссылок вида  /arhiv?coolfilter=o_16:107

Они все были заблокированы от индексации в robots.txt но тем немение яндекс упорно продолжает по ним ходить, а поскольку таких страниц тысячи - создается нагрузка на сервер (в яндекс вебмастере все эти страницы отмечены как заблокированые в роботсе, но яндекс бот регулярно их посещает). Уже больше полугода как удалил этот фильтр, а страницы упорно продолжают посещаться ботом (и что интересно они физически доступны если по ни перейти).

 

Во время поисков натолкнулся на инфу, что процентов 80 сайтов имеют такой косяк, что если после адреса поставить знак вопроса, и написать какуюто белиберду, то страничка на сайте прекрасно открывается и если дать на нее ссылку она индексируется поисковиком и будет считаться дублем.

 

Есть ли какой-нибуть способ правильно заблокировать такие страницы, или 404 на них сделать. Посути такие страницы физически доступны, и если сделать на них ссылку то поисковый бот по ней обязательно залезет туда. Бы ло бы таких страниц немного - нестрашно (в роботсе заблокировано), но если их несколько тысяч то идет конкретная нагрузка на сервер роботами.

Надіслати
Поділитися на інших сайтах


....

Уважаемый yourwebinua, есть такой тег canonicial, плюс sitenap.xml  и robots.txt

Они решают все вопросы

 

ПС все равно какой там параметр если canonicial есть "основной" страницы

Надіслати
Поділитися на інших сайтах

Уважаемый yourwebinua, есть такой тег canonicial, плюс sitenap.xml  и robots.txt

Они решают все вопросы

 

ПС все равно какой там параметр если canonicial есть "основной" страницы

все это реализовано - но данную проблему не решает, робот продолжает заходить на эти страницы регулярно.

Надіслати
Поділитися на інших сайтах


все это реализовано - но данную проблему не решает, робот продолжает заходить на эти страницы регулярно.

Поисковику устроены по принципу "хочу ВСЁ знать"

И ничего ты от них не "спрячешь" :)

Ходили и будут ходить. Они даже пытаются зайти в "закрытые" части сайтов и пытаются авторизоваться в формах (на предмет того что форма авторизации заполнена к примеру demo / demo), как "большой брат". Любую ссылку что они "увидели" обязательно посетят и будут ходить долго, даже если она 404 и заносить к СЕБЕ её содержимое, если отдается какой либо контент (а вдруг там ссылочки по которым можно пройти и что то новенькое схавать)

Плевали они на всё, на noindex, nofollow, robots.txt и т.п. (к примеру, проводил эксперимент, я удалил страницу, закрыл в роботс, отдает 404, но яша и геша регулярно её уже год как "посещают" (в логах отлично видно))

В robots.txt закрыто ? Если закрыто, в индексе не будет. Это самое главное.

Надіслати
Поділитися на інших сайтах

Поисковику устроены по принципу "хочу ВСЁ знать"

И ничего ты от них не "спрячешь" :)

Ходили и будут ходить. Они даже пытаются зайти в "закрытые" части сайтов и пытаются авторизоваться в формах (на предмет того что форма авторизации заполнена к примеру demo / demo), как "большой брат". Любую ссылку что они "увидели" обязательно посетят и будут ходить долго, даже если она 404 и заносить к СЕБЕ её содержимое, если отдается какой либо контент (а вдруг там ссылочки по которым можно пройти и что то новенькое схавать)

Плевали они на всё, на noindex, nofollow, robots.txt и т.п. (к примеру, проводил эксперимент, я удалил страницу, закрыл в роботс, отдает 404, но яша и геша регулярно её уже год как "посещают" (в логах отлично видно))

В robots.txt закрыто ? Если закрыто, в индексе не будет. Это самое главное.

Да в роботс закрыто и в индекс они не попадают, с этим все в порядке.

Тогда получается, что большая дырка в безопасности, встречал несколько статей, когда искал решение вопроса, что этим пользуются злоумышленники - покупают на такие несуществующие страницы на всяких сеопультах и сапе кучу ссылок нехороших на кучу таких вот страниц твоего сайта и это все добро индексируется во первых дубли, во вторых плохие ссылки и топят твой сайт. Блокировка в робот спасает от такого, но с нагрузкой проблема останется.

Я в принципе уже давно привык что сразу в роботс блокировать все где есть знак вопроса, но в опенкарт по умолчанию нету такого, да и надо еще постараться чтобы эти самые "злоумышленники" обратили внимание на твой сайт ).

Темнемение спасибо за общение. Будем искать дальше, может что накопаю.

Надіслати
Поділитися на інших сайтах


Да в роботс закрыто и в индекс они не попадают, с этим все в порядке.

Тогда получается, что большая дырка в безопасности, встречал несколько статей, когда искал решение вопроса, что этим пользуются злоумышленники - покупают на такие несуществующие страницы на всяких сеопультах и сапе кучу ссылок нехороших на кучу таких вот страниц твоего сайта и это все добро индексируется во первых дубли, во вторых плохие ссылки и топят твой сайт. Блокировка в робот спасает от такого, но с нагрузкой проблема останется.

Я в принципе уже давно привык что сразу в роботс блокировать все где есть знак вопроса, но в опенкарт по умолчанию нету такого, да и надо еще постараться чтобы эти самые "злоумышленники" обратили внимание на твой сайт ).

Темнемение спасибо за общение. Будем искать дальше, может что накопаю.

Да, есть такое дело. Конкуренты могут опустить сайт если захотят.

Любой сайт можно опустить :)

Купить не ликвидные ссылки на сайт конкурента с "порно" сайтов к примеру :)

Надіслати
Поділитися на інших сайтах

самый простой способ -через htacces

 

для ссылок с ?coolfilter - отдавать или  404 или 400

точно - первое что напрашивается. спасибо - самый элементарный способ а как то не сообразил сходу, от существующих должно помочь избавиться.

Надіслати
Поділитися на інших сайтах


Может кому пригодиться кто заглянет в тему. добавил в .htaccess
RewriteCond %{QUERY_STRING} coolfilter=(.*)
RewriteRule ^ - [G]

теперь странички возвращают 410 - не существует, это должно заставить ботов перестать ходить куда не просят.

О результатах отпишусь).

Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
  • Зараз на сторінці   0 користувачів

    • Ні користувачів, які переглядиють цю сторінку
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.