Jump to content
Yoda

Фильтр, ЧПУ, noindex и (ajax/js) ссылки и индексация. Что делать?

Recommended Posts

Обнаружил я сегодня в одном логе интересные заходы:

 

 [19/Sep/2019:03:58:20 +0300] "GET /women-parfum/proizvoditeli_adam-levine~afnan~tiffany~salvatore-ferragamo~larc~natori HTTP/1.1" 200 38926 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
[19/Sep/2019:03:58:20 +0300] "GET /women-parfum/proizvoditeli_adam-levine~tiffany~salvatore-ferragamo~larc~amzan~natori HTTP/1.1" 200 37936 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
 [19/Sep/2019:03:58:23 +0300] "GET /women-parfum/proizvoditeli_adam-levine~tiffany~salvatore-ferragamo~larc~100-bon~natori HTTP/1.1" 200 38166 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
 [19/Sep/2019:03:58:26 +0300] "GET /women-parfum/proizvoditeli_ajmal~adam-levine~tiffany~salvatore-ferragamo~larc~natori HTTP/1.1" 200 40672 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
 [19/Sep/2019:03:58:27 +0300] "GET /women-parfum/proizvoditeli_adam-levine~adidas~tiffany~salvatore-ferragamo~larc~natori HTTP/1.1" 200 37876 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
[19/Sep/2019:03:58:30 +0300] "GET /women-parfum/proizvoditeli_adam-levine~agnes-b~tiffany~salvatore-ferragamo~larc~natori HTTP/1.1" 200 37833 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
[19/Sep/2019:03:58:31 +0300] "GET /women-parfum/proizvoditeli_amouage~adam-levine~tiffany~salvatore-ferragamo~larc~natori HTTP/1.1" 200 40704 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

А ссылок таких в магазине нету. А есть только вида:

 

<a class="checkb" onclick="javascript:location='https://site.ru/women-parfum/proizvoditeli_abercrombie-fitch~text'">text</a>

 

Тоесть вроде это как фильтр. И там вроде как есть noindex, но гугл его чудесно увидел и пошел индексировать и придет еще и еще, так ка noindex тег - это "неиндексировать" а не "незаходить" .

Таких ссылок в магазине только в одной категории если брать категорию +  комбинацию пары брендов без доп атрибутов  (брендов поярдка тысячи и вот каждый с каждым - миллион комбинаций только в одной категории). Совершенно ненужных мусорных страниц, на которые бродит бот.

 

Да там каноникал и noindex, но он же будет туда все равно ходить повторно?

А когда ему ходить то на нужные страницы ? Да и зачем уганять краулинговый бюджет на миллион холостых заходов?

Непонятно мне совсем.


И тут собственно вопрос в студию. А как это все прикрыть?
Может отдать ему 404? Но тогда в магазине будет куча 404 страниц.

 

Закрывать в robots по /*proizvoditeli_* но тогда пропадет часть посадочных, на которых есть текст и тайтлы и которые нужны.

 

Че делать посоветуете господа ?

 

UPD - чтобы совсем корректно не ajax ссылки, а js-ссылки, хотя мне кажется если у нас будет кусок ajax контента, он также проиндексируется.

UPD2 - дабы не было холиваров. Эта проблема не с конкретным фильтром, а с любым, где есть автогенерация ЧПУ для параметров выборки.

Share this post


Link to post
Share on other sites

Светлейший @Yoda и не знает что делать? Ну ладно, подскажем барину. 

Все подобные ссылки нужно привести к одному виду, это же очевидно. Как? Да очень просто, сортируйте все параметры в алфавитном порядке и все. Если бот приходит по ссылке в которой они не в алфавитном порядке, отправляйте его 301 редиректов на ссылку где они в алфавитном порядке и все. Тем самым вы оставите эти, хоть и мусорные, страницы в индексе и избежите дублей 

 

Share this post


Link to post
Share on other sites
31 минуту назад, Jurgen сказал:

Светлейший @Yoda и не знает что делать? Ну ладно, подскажем барину. 

Все подобные ссылки нужно привести к одному виду, это же очевидно. Как? Да очень просто, сортируйте все параметры в алфавитном порядке и все. Если бот приходит по ссылке в которой они не в алфавитном порядке, отправляйте его 301 редиректов на ссылку где они в алфавитном порядке и все. Тем самым вы оставите эти, хоть и мусорные, страницы в индексе и избежите дублей 

 

сразу видно, что в сео вы не шарите совсем, такое кол-во 301 редиректов аукнется легко

Share this post


Link to post
Share on other sites
5 минут назад, Nameless сказал:

сразу видно, что в сео вы не шарите совсем, такое кол-во 301 редиректов аукнется легко

я и не претендую на знания в сео. Как по мне вариантов разного порядка  порядка значений фильтра в урле не должно быть априори. Да и зайдите на ту же розетку, клацните фильтр, а потом руками подправьте урл, вас редиректнет на верный. Другое дело что автор уже расплодил кучу таких страниц...

 

 

upd Если человек, например, сначала выбрал производителя асус, а потом лж, и получил ссылку типа /asus,lg а другой выбрал в другом порядке и получил ссылку типа /lg,asus то это кривость фильтра, которую изначально нужно фиксить

Edited by Jurgen

Share this post


Link to post
Share on other sites
1 час назад, Yoda сказал:

Че делать посоветуете господа ?

 

Советую на Хабре тему создать :grin:

 

Шутка минутка (юмор)

Share this post


Link to post
Share on other sites

Ничего не делать. Робот посетит их несколько раз и потом больше по ним не будет ходит.
На сегодняшний день указания Г такие:

- robots.tx  - уже практически не учитивается, робот все равно ходит по ссилки, которие как нибудь нашел даже если они закрити в роботс:

- тег ноиндекс основной признак, которой робот учитиваеть.

 

https://www.searchenginejournal.com/google-robots-txt-noindex/314961/#close

https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html

  • +1 1

Share this post


Link to post
Share on other sites
rel="nofollow"

и еще убрать имя домена - https://site.ru/

<a class="checkb" rel="nofollow" onclick="javascript:location='women-parfum/proizvoditeli_abercrombie-fitch~text'">text</a>

 

  • +1 1

Share this post


Link to post
Share on other sites
В 19.09.2019 в 23:37, vier сказал:

rel="nofollow"

и еще убрать имя домена - https://site.ru/


<a class="checkb" rel="nofollow" onclick="javascript:location='women-parfum/proizvoditeli_abercrombie-fitch~text'">text</a>

 

Да, сам так делал ))).

Share this post


Link to post
Share on other sites
8 минут назад, legioner26 сказал:

Да, сам так делал ))).

 

не знаю на сколько это еще актуально для Поисковиков, кажись пару лет назад эта статья была - https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/skrytie-ssylok-seo.html

но пока в моем модуле его эксперименты работают. а там если что - будем посмотреть.

Share this post


Link to post
Share on other sites
В 19.09.2019 в 23:37, vier сказал:

rel="nofollow"

и еще убрать имя домена - https://site.ru/

весь вопрос - заходит на них бот или нет? Есть у вас такая инфа?

и угоняется ли краулинговый бюджет?

Share this post


Link to post
Share on other sites
21 минуту назад, Sergeyy84 сказал:

весь вопрос - заходит на них бот или нет? Есть у вас такая инфа?

нет.

если у Вас есть, то делитесь. и какие другие меры тогда надо предпринимать.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
You are posting as a guest. If you have an account, please sign in.
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.


  • Recently Browsing   0 members

    No registered users viewing this page.

×

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.