Jump to content
Search In
  • More options...
Find results that contain...
Find results in...
  • Sign Up

Проиндексировано, несмотря на блокировку в файле robots.txt


Recommended Posts

5 часов назад, Zetx сказал:

потому, что сам гугл так твердит...

А вы что "гугл твердит" до конца-то дочитали? Убирать запись в роботс надо только в том случае,
"Если вы не хотите удалять страницу из результатов поиска".
Имхо, вас смущает одинаковое слово для разных действий.
В роботс noindex означает даже не проверять страницу, а в тегах - не сканировать. 
Для ненужных страниц лучше делать и то, и то:
- Первое, чтобы не дергать сервер для проверок миллионов мусорных страниц (если бот ваще не попедет на страницу, второй ноуидекс в тегах никому не помешает). 
- Второе, чтобы, если уж каким-то образом ссылка на страницу просочилась куда-то и краулер все-таки пришел "снаружи", сказать ему отвалить и не индексировать.
PS: Включите в доках гугла английски. Узнаете много нового.

Link to post
Share on other sites

9 часов назад, Yoda сказал:

Нет конечно, это аргумент, из серии говорят у китаянок поперек.

Не вижу никакой разницы в сложности двух строк кода сделать header (), или echo ("meta robots...).

в этом то и вся ваша проблема, кроме вас есть еще армия тех кто не отличает код от обоев с розочками. Демагогию разводить не вижу смысла - считаю что тех способов что я написал ТС хватит для выполнения задачи. Удачи вам

Link to post
Share on other sites

5 часов назад, Shureg сказал:

А вы что "гугл твердит" до конца-то дочитали? Убирать запись в роботс надо только в том случае,
"Если вы не хотите удалять страницу из результатов поиска".
Имхо, вас смущает одинаковое слово для разных действий.
В роботс noindex означает даже не проверять страницу, а в тегах - не сканировать. 
Для ненужных страниц лучше делать и то, и то:
- Первое, чтобы не дергать сервер для проверок миллионов мусорных страниц (если бот ваще не попедет на страницу, второй ноуидекс в тегах никому не помешает). 
- Второе, чтобы, если уж каким-то образом ссылка на страницу просочилась куда-то и краулер все-таки пришел "снаружи", сказать ему отвалить и не индексировать.
PS: Включите в доках гугла английски. Узнаете много нового.

вы не правы - роботс сканирует/несканирует, а не удаляет, ноиндекс удаляет, но не запрещает сканировать.

Для ненужных страниц если они попали в индекс не смотря на запрет в роботсе нужно : поставить мета ноиндекс или канон, и открыть в роботсе. Почему ? потому что они туда попали не просто так ( например внешка или внутри ссылочное). То есть грубо говоря нужно смотреть что за страницы, почему попали, может они и нужны в индексе ( например страницы фильтрации или более удобной сортировки). Бездумно все запрещать и ставить теги не советую

Link to post
Share on other sites

Есть у меня демка
Закрыта от индексации в роботсе

На демке установлен Bot Cheker

Боты читают роботс и никуда больше ходят
https://prnt.sc/13ty81p

 

https://prnt.sc/13tybv7

 

https://prnt.sc/13tyi5n

 

 

Не преуменьшайте влияние роботс.тхт

Link to post
Share on other sites
15 минут назад, kulinenko сказал:

потому что они туда попали не просто так ( например внешка или внутри ссылочное).

ну.. с внешкой понятно
А внутренняя?
если она  указана в роботс - бот туда не пойдет

Link to post
Share on other sites
2 часа назад, kulinenko сказал:

в этом то и вся ваша проблема, кроме вас есть еще армия тех кто не отличает код от обоев с розочками. Демагогию разводить не вижу смысла - считаю что тех способов что я написал ТС хватит для выполнения задачи. Удачи вам

У меня нет проблем, а вы пытаясь раскрыть тему, доносите поверхностные знания, к сожалению еще и несколько плавая в ней.

Я ждал подобного какого-то едкого комментария в стиле все баобабы а я дартаньян.

Так вот предлагаю ********* чуть чуть и подумать о том, что когда мы отдаем в заголовке запрет индексации, бот дальше не идет.
А когда не идет бот, у нас нет нагрузки на сервер, нет скачивания скриптов, изображений, стилей.
И это существенно экономит серверные ресурсы...

 

К сожалению дальше обрывочных знаний из сео-блогов вы не ушли и не смотрите на проблему комплексно, а лишь пытаетесь отстаивать свою частично верную версию.

 

Называется это - нулевая экспертиза. 

Link to post
Share on other sites

59 минут назад, Yoda сказал:

Так вот предлагаю ************ чуть чуть и подумать о том, что когда мы отдаем в заголовке запрет индексации, бот дальше не идет.
А когда не идет бот, у нас нет нагрузки на сервер, нет скачивания скриптов, изображений, стилей.
И это существенно экономит серверные ресурсы...

Куда бот не идет?

Чем заголовок отличается от тега?

Если получен заголовок, то бот, возможно, прервет  соединение, но сервер контент уже отдал =  нагрузка
И пометил страница не индексируется

Если в контенте (а он все равно получен есть тег) то страница не должна индексироваться и страница должна быть помечена

А если снять запрет индексации? Бот ее проиндексирует.
А если запретить после того как проиндексировал? Проиндексирована, но запрещена.

Link to post
Share on other sites
47 минут назад, chukcha сказал:

Куда бот не идет?

Чем заголовок отличается от тега?

Если получен заголовок, то бот, возможно, прервет  соединение, но сервер контент уже отдал =  нагрузка
И пометил страница не индексируется

Если в контенте (а он все равно получен есть тег) то страница не должна индексироваться и страница должна быть помечена

А если снять запрет индексации? Бот ее проиндексирует.
А если запретить после того как проиндексировал? Проиндексирована, но запрещена.

**********
Бот не идет грузить страницу. И не находит на ней ссылки на новые ресурсы, типа каких нибудь кривых пагинаций!
А если это гугл бот и он просканил страницу, то ему же интересно что там по ссылкам в контексте!
А просто разрывает коннект.

Link to post
Share on other sites

39 минут назад, Yoda сказал:

************
Бот не идет грузить страницу. И не находит на ней ссылки на новые ресурсы, типа каких нибудь кривых пагинаций!
А если это гугл бот и он просканил страницу, то ему же интересно что там по ссылкам в контексте!
А просто разрывает коннект.

Не хами

ок, а то что коннект уже создан и сервер уже нагружен.. Не? ***********

 

И бот все равно будет регулярно туда стучаться. Ему никто не запрещает.
Это просто указание - НЕ индексировать..
 

Link to post
Share on other sites

 Вы отклонились от темы. В серчонсоли вы наверняка найдете страницы в индексе которые запрещены в роботс и на которых стоит тег ноуиндекс и страницы которые разрешены, но выкинутые. У гугла несколько краулеров, часть лазает по всему сайту не смотря на любые директивы, часть только по индксируемому. Если ПС видит трафик на страницы или по другому решает, что она нужна она должны быть полезна пользователям все равно будет в индексе несмотря на запреты. Но есть и краулинговый бюджет который раствориться на бесполезных страницах так и не дойдя до нужных плюс % доли полезных страниц и пустышек которые скажутся на общей выдачи сайта.

Link to post
Share on other sites

2 часа назад, chukcha сказал:

Есть у меня демка
Закрыта от индексации в роботсе

На демке установлен Bot Cheker

Боты читают роботс и никуда больше ходят
https://prnt.sc/13ty81p

 

https://prnt.sc/13tybv7

 

https://prnt.sc/13tyi5n

 

 

Не преуменьшайте влияние роботс.тхт

в этом то вся суть - все закрыто - никто не ходит. А вы возьмите на демку ссылок купите и трафа полейте и посмотрите что будет ))

 

2 часа назад, chukcha сказал:

ну.. с внешкой понятно
А внутренняя?
если она  указана в роботс - бот туда не пойдет

ссылочный внутряк не может быть "указан" в роботсе - грубо говоря есть ссылка на ИНДЕСИРУЕМОЙ странице 1 на запрещенную в роботсе страницу 2, шанс быть проиндексированной страницы 2 сразу растет. Понимаете ?

Link to post
Share on other sites

Только что, kulinenko сказал:

все закрыто - никто не ходит

но адрес на демку я раздую, и показываю примеры работы модулей

 

2 минуты назад, kulinenko сказал:

ссылочный внутряк не может быть "указан" в роботсе


ага, а какже  страница авторизации?
корзины? Это же внтряк?
 

 

3 минуты назад, kulinenko сказал:

А вы возьмите на демку ссылок купите и трафа полейте и посмотрите что будет ))

Ничего не будет

 

 

Link to post
Share on other sites
1 час назад, Yoda сказал:

У меня нет проблем, а вы пытаясь раскрыть тему, доносите поверхностные знания, к сожалению еще и несколько плавая в ней.

Я ждал подобного какого-то едкого комментария в стиле все баобабы а я дартаньян.

Так вот предлагаю ********* чуть чуть и подумать о том, что когда мы отдаем в заголовке запрет индексации, бот дальше не идет.
А когда не идет бот, у нас нет нагрузки на сервер, нет скачивания скриптов, изображений, стилей.
И это существенно экономит серверные ресурсы...

 

К сожалению дальше обрывочных знаний из сео-блогов вы не ушли и не смотрите на проблему комплексно, а лишь пытаетесь отстаивать свою частично верную версию.

 

Называется это - нулевая экспертиза. 

эх как зацепило))) Удачи вам еще раз "в экспертизах"))) советую прочитать еще раз старпост

 

51 минуту назад, Nameless сказал:

Если ПС видит трафик на страницы или по другому решает, что она нужна она должны быть полезна пользователям все равно будет в индексе несмотря на запреты.

если стоит мета ноиндекс то страница не будет проиндексирована НИКАК

Link to post
Share on other sites

2 минуты назад, chukcha сказал:

но адрес на демку я раздую, и показываю примеры работы модулей

значит главная страница рано или поздно попадет в индекс но с скрытым сниппетом где будет написано "пользователь скрыл содержимое страницы"

 

3 минуты назад, chukcha сказал:

ага, а какже  страница авторизации?
корзины? Это же внтряк?

внутряк - это внутренние текстовые обычные гиперссылки

 

4 минуты назад, chukcha сказал:

Ничего не будет

вы попробуйте, а потом будете утверждать

 

Я лично пробовал много раз

Link to post
Share on other sites

1 минуту назад, kulinenko сказал:

то страница не будет проиндексирована

Что вы понимаете под индексацией

Если при создании страницы (появлении в ссылочной массе) не было тега - Страница будет проиндексирована?
А затем при след обходе появится тег - Что будет со страницей?

Link to post
Share on other sites
1 минуту назад, kulinenko сказал:

значит главная страница рано или поздно попадет в индекс но с скрытым сниппетом где будет написано "пользователь скрыл содержимое страницы"

 

внутряк - это внутренние текстовые обычные гиперссылки

 

вы попробуйте, а потом будете утверждать

 

Я лично пробовал много раз

У меня таких демок три.. за много лет  и их нет в индексе

Ио что вы льете траф на на сайт, а сайт закрыт роботс  - это ваши проблемы
Я вам показал - индексирующие боты ЧИТАЮТ robots.txt
И никуда не ходят

Link to post
Share on other sites
Только что, chukcha сказал:

Что вы понимаете под индексацией

у индексации есть четкое определение - попадание в "базу пс" и соответственно в выдачу пс

 

2 минуты назад, chukcha сказал:

Если при создании страницы (появлении в ссылочной массе) не было тега - Страница будет проиндексирована?

разъясните свою мысль в скобках пожалуйста

 

3 минуты назад, chukcha сказал:

1 не было тега - Страница будет проиндексирована?
2 А затем при след обходе появится тег - Что будет со страницей?

1 да будет

2 будет деиндекс

вроде же просто

Link to post
Share on other sites

2 минуты назад, chukcha сказал:

У меня таких демок три.. за много лет  и их нет в индексе

Ио что вы льете траф на на сайт, а сайт закрыт роботс  - это ваши проблемы
Я вам показал - индексирующие боты ЧИТАЮТ robots.txt
И никуда не ходят

я не знаю какие ссылки стоят на них и не могу оценить ваши демки итд итп. Тем более выше я написал что роботс это рекоменда ( может проиндексить а может и нет ). Плюс мы в данной теме говорим про страницы на сайте , а не про сайт в целом - я все таки делаю различие между этими понятиями. Так же У меня были примеры закрытых сайтов ( тестовых в роботсе) с попаданием в индекс, и были те что не попадали. У ТС конкретный пример страниц которые закрыты в роботсе но в индексе, и у меня есть таких страниц куча - причина ссылочное внутряк. Внизу пример

Screenshot_2021-06-03 Покрытие.png

Link to post
Share on other sites

3 минуты назад, kulinenko сказал:

вроде же просто

А проверьте

(деиндекс? а можно поподробнее ..)

 

Т.е. тема заголовка вас не смущает?

 

Проще поменять адрес - отдать 404(410)
Или удалить странцу из серчконсоли, чем ждать деиндекса (если такой есть)


 

Link to post
Share on other sites
12 минут назад, kulinenko сказал:

если стоит мета ноиндекс то страница не будет проиндексирована НИКАК

 

серчконсоль говорит об обратном

Link to post
Share on other sites

4 минуты назад, kulinenko сказал:

У меня были примеры закрытых сайтов ( тестовых в роботсе) с попаданием в индекс,

ага, просто забыл закрыть..

Еще раз поясните и приведите пример - что такое ссылочный внутряк?

Link to post
Share on other sites
3 минуты назад, chukcha сказал:

(деиндекс? а можно поподробнее ..)

 

в народе - "уход из индекса"

 

4 минуты назад, chukcha сказал:

Т.е. тема заголовка вас не смущает?

 

как раз выше показал скрин полностью аналогичный старпосту и заголовку темы

 

4 минуты назад, chukcha сказал:

Проще поменять адрес - отдать 404(410)

Или удалить странцу из серчконсоли, чем ждать деиндекса (если такой есть)


 

это совсем другой случай , не путайте пожалуйста. ТС хочет деиндексировать страницы а не удалять их или временно скрывать каждые 90 дней

 

4 минуты назад, Nameless сказал:

серчконсоль говорит об обратном

покажите скрин где страница в индексе с мета ноиндекс, такого нету у вас .

 

4 минуты назад, chukcha сказал:

ага, просто забыл закрыть..

нет, не угадали, ничего я не забыл

 

5 минут назад, chukcha сказал:

Еще раз поясните и приведите пример - что такое ссылочный внутряк?

это ссылка внутри сайта с одной страницы на другую, чеж сложно то так ?

 

внизу скрин изучите пожалуйста

Screenshot_2021-06-03 Проверка URL.png

Link to post
Share on other sites

Posted (edited)

почему никто не говорит, что сканирование и индексирование это разные вещи...

в роботс мы даем рекомендации по сканированию сайта, и так как на мусорных страницах могут быть ссылки на полезные, например на странице сортировки могут быть ссылки на карточки товаров, и закрыв все это в роботс, робот гугла просто их даже не просканирует... не говоря уже про индексирование, т.к. это уже какбы второй этап

а вот решение про индексирование страниц гугл принимает исходя из тех, которые он просканировал... и если страница имеет ноиндекс, то соответственно в индекс она никак не попадет

 

если следовать совету, когда рекомендуют закрывать и в роботсе и на странице через ноиндекс, то:

1. гугл смотрит файлик роботс, и НЕ сканирует мусорные страницы

2. дальше гугл заходит на сайт, сканирует полезные страницы, и вуаля через них попадает на эти самые мусорные страницы

после этого вы и получаете в своей консоли сообщение "Проиндексировано, несмотря на блокировку в файле robots.txt"

Edited by Zetx
Link to post
Share on other sites

Posted (edited)

Столько обсуждений простейшего вопроса... Ну все же описано на самом гугле. 
 

1 час назад, Zetx сказал:

2. дальше гугл заходит на сайт, сканирует полезные страницы, и вуаля через них попадает на эти самые мусорные страницы

после этого вы и получаете в своей консоли сообщение "Проиндексировано, несмотря на блокировку в файле robots.txt"

Не попадает.
Ноуиндекс в роботс именно от этого и защищает - от переходов по внутренним ссылкам на мусорные страницы.
Чтобы не дергать сервер попусту, открывая миллион страниц фильтра.

НО - краулер может все равно прийти на страницу, закрытую в роботс, если на нее ведет внешняя ссылка.
Если бот попадает на страницу подобным образом, в обход роботс, признает её годной и индексирует, тогда и появляется предупреждение: "проиндексировано, хотя в роботс закрыто от сканирования".
Это не какая-то ошибка, это просто уведомление, чтобы владелец сайта обратил внимание, и, возможно, выбрал - оставить страницу в индексе или закрыть noindex-ом на самой странице.
И вот тут-то пригодится ноуиндекс в теге (если страницу и правда не надо индексировать). А можно проставить его заранее, на всякий случай :)

Также бот может и без внешних ссылок, по одному ему ведомым причинам решить, что страница очень нужная, и пойти ее индексировать любой ценой. Рассматривать этот вариант бесполезно, если боту чего в голову стукнуло, то и 20 ноуиндексов в любых местах его не остановят.

Edited by Shureg
Link to post
Share on other sites

2 часа назад, Zetx сказал:

почему никто не говорит, что сканирование и индексирование это разные вещи...

я об этом пишу уже две страницы почти в каждом посте

 

1 час назад, Shureg сказал:

Не попадает.

именно так и попадает - по ссылочному внутряку либо внешке

 

1 час назад, Shureg сказал:

Ноуиндекс в роботс именно от этого и защищает - от переходов по внутренним ссылкам на мусорные страницы.
Чтобы не дергать сервер попусту, открывая миллион страниц фильтра.

как раз наоборот и не защищает - по этому и страницы в индексе, а вот лямы страниц фильтра как раз наоборот - на них нету ссылок - по этому и не в индексе( если под запретом)

 

1 час назад, Shureg сказал:

если на нее ведет внешняя ссылка.

не внешняя а любая ссылка.

 

1 час назад, Shureg сказал:

Рассматривать этот вариант бесполезно, если боту чего в голову стукнуло, то и 20 ноуиндексов в любых местах его не остановят.

страница  под мета ноиндекс не будет проиндексирована никогда, не выдумывайте

Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.