Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Проиндексировано, несмотря на блокировку в файле robots.txt


Recommended Posts

5 часов назад, Zetx сказал:

потому, что сам гугл так твердит...

А вы что "гугл твердит" до конца-то дочитали? Убирать запись в роботс надо только в том случае,
"Если вы не хотите удалять страницу из результатов поиска".
Имхо, вас смущает одинаковое слово для разных действий.
В роботс noindex означает даже не проверять страницу, а в тегах - не сканировать. 
Для ненужных страниц лучше делать и то, и то:
- Первое, чтобы не дергать сервер для проверок миллионов мусорных страниц (если бот ваще не попедет на страницу, второй ноуидекс в тегах никому не помешает). 
- Второе, чтобы, если уж каким-то образом ссылка на страницу просочилась куда-то и краулер все-таки пришел "снаружи", сказать ему отвалить и не индексировать.
PS: Включите в доках гугла английски. Узнаете много нового.

Надіслати
Поділитися на інших сайтах


9 часов назад, Yoda сказал:

Нет конечно, это аргумент, из серии говорят у китаянок поперек.

Не вижу никакой разницы в сложности двух строк кода сделать header (), или echo ("meta robots...).

в этом то и вся ваша проблема, кроме вас есть еще армия тех кто не отличает код от обоев с розочками. Демагогию разводить не вижу смысла - считаю что тех способов что я написал ТС хватит для выполнения задачи. Удачи вам

Надіслати
Поділитися на інших сайтах


5 часов назад, Shureg сказал:

А вы что "гугл твердит" до конца-то дочитали? Убирать запись в роботс надо только в том случае,
"Если вы не хотите удалять страницу из результатов поиска".
Имхо, вас смущает одинаковое слово для разных действий.
В роботс noindex означает даже не проверять страницу, а в тегах - не сканировать. 
Для ненужных страниц лучше делать и то, и то:
- Первое, чтобы не дергать сервер для проверок миллионов мусорных страниц (если бот ваще не попедет на страницу, второй ноуидекс в тегах никому не помешает). 
- Второе, чтобы, если уж каким-то образом ссылка на страницу просочилась куда-то и краулер все-таки пришел "снаружи", сказать ему отвалить и не индексировать.
PS: Включите в доках гугла английски. Узнаете много нового.

вы не правы - роботс сканирует/несканирует, а не удаляет, ноиндекс удаляет, но не запрещает сканировать.

Для ненужных страниц если они попали в индекс не смотря на запрет в роботсе нужно : поставить мета ноиндекс или канон, и открыть в роботсе. Почему ? потому что они туда попали не просто так ( например внешка или внутри ссылочное). То есть грубо говоря нужно смотреть что за страницы, почему попали, может они и нужны в индексе ( например страницы фильтрации или более удобной сортировки). Бездумно все запрещать и ставить теги не советую

Надіслати
Поділитися на інших сайтах


Есть у меня демка
Закрыта от индексации в роботсе

На демке установлен Bot Cheker

Боты читают роботс и никуда больше ходят
https://prnt.sc/13ty81p

 

https://prnt.sc/13tybv7

 

https://prnt.sc/13tyi5n

 

 

Не преуменьшайте влияние роботс.тхт

Надіслати
Поділитися на інших сайтах

15 минут назад, kulinenko сказал:

потому что они туда попали не просто так ( например внешка или внутри ссылочное).

ну.. с внешкой понятно
А внутренняя?
если она  указана в роботс - бот туда не пойдет

Надіслати
Поділитися на інших сайтах

2 часа назад, kulinenko сказал:

в этом то и вся ваша проблема, кроме вас есть еще армия тех кто не отличает код от обоев с розочками. Демагогию разводить не вижу смысла - считаю что тех способов что я написал ТС хватит для выполнения задачи. Удачи вам

У меня нет проблем, а вы пытаясь раскрыть тему, доносите поверхностные знания, к сожалению еще и несколько плавая в ней.

Я ждал подобного какого-то едкого комментария в стиле все баобабы а я дартаньян.

Так вот предлагаю ********* чуть чуть и подумать о том, что когда мы отдаем в заголовке запрет индексации, бот дальше не идет.
А когда не идет бот, у нас нет нагрузки на сервер, нет скачивания скриптов, изображений, стилей.
И это существенно экономит серверные ресурсы...

 

К сожалению дальше обрывочных знаний из сео-блогов вы не ушли и не смотрите на проблему комплексно, а лишь пытаетесь отстаивать свою частично верную версию.

 

Называется это - нулевая экспертиза. 

Надіслати
Поділитися на інших сайтах


59 минут назад, Yoda сказал:

Так вот предлагаю ************ чуть чуть и подумать о том, что когда мы отдаем в заголовке запрет индексации, бот дальше не идет.
А когда не идет бот, у нас нет нагрузки на сервер, нет скачивания скриптов, изображений, стилей.
И это существенно экономит серверные ресурсы...

Куда бот не идет?

Чем заголовок отличается от тега?

Если получен заголовок, то бот, возможно, прервет  соединение, но сервер контент уже отдал =  нагрузка
И пометил страница не индексируется

Если в контенте (а он все равно получен есть тег) то страница не должна индексироваться и страница должна быть помечена

А если снять запрет индексации? Бот ее проиндексирует.
А если запретить после того как проиндексировал? Проиндексирована, но запрещена.

Надіслати
Поділитися на інших сайтах

47 минут назад, chukcha сказал:

Куда бот не идет?

Чем заголовок отличается от тега?

Если получен заголовок, то бот, возможно, прервет  соединение, но сервер контент уже отдал =  нагрузка
И пометил страница не индексируется

Если в контенте (а он все равно получен есть тег) то страница не должна индексироваться и страница должна быть помечена

А если снять запрет индексации? Бот ее проиндексирует.
А если запретить после того как проиндексировал? Проиндексирована, но запрещена.

**********
Бот не идет грузить страницу. И не находит на ней ссылки на новые ресурсы, типа каких нибудь кривых пагинаций!
А если это гугл бот и он просканил страницу, то ему же интересно что там по ссылкам в контексте!
А просто разрывает коннект.

Надіслати
Поділитися на інших сайтах


39 минут назад, Yoda сказал:

************
Бот не идет грузить страницу. И не находит на ней ссылки на новые ресурсы, типа каких нибудь кривых пагинаций!
А если это гугл бот и он просканил страницу, то ему же интересно что там по ссылкам в контексте!
А просто разрывает коннект.

Не хами

ок, а то что коннект уже создан и сервер уже нагружен.. Не? ***********

 

И бот все равно будет регулярно туда стучаться. Ему никто не запрещает.
Это просто указание - НЕ индексировать..
 

Надіслати
Поділитися на інших сайтах

 Вы отклонились от темы. В серчонсоли вы наверняка найдете страницы в индексе которые запрещены в роботс и на которых стоит тег ноуиндекс и страницы которые разрешены, но выкинутые. У гугла несколько краулеров, часть лазает по всему сайту не смотря на любые директивы, часть только по индксируемому. Если ПС видит трафик на страницы или по другому решает, что она нужна она должны быть полезна пользователям все равно будет в индексе несмотря на запреты. Но есть и краулинговый бюджет который раствориться на бесполезных страницах так и не дойдя до нужных плюс % доли полезных страниц и пустышек которые скажутся на общей выдачи сайта.

Надіслати
Поділитися на інших сайтах

2 часа назад, chukcha сказал:

Есть у меня демка
Закрыта от индексации в роботсе

На демке установлен Bot Cheker

Боты читают роботс и никуда больше ходят
https://prnt.sc/13ty81p

 

https://prnt.sc/13tybv7

 

https://prnt.sc/13tyi5n

 

 

Не преуменьшайте влияние роботс.тхт

в этом то вся суть - все закрыто - никто не ходит. А вы возьмите на демку ссылок купите и трафа полейте и посмотрите что будет ))

 

2 часа назад, chukcha сказал:

ну.. с внешкой понятно
А внутренняя?
если она  указана в роботс - бот туда не пойдет

ссылочный внутряк не может быть "указан" в роботсе - грубо говоря есть ссылка на ИНДЕСИРУЕМОЙ странице 1 на запрещенную в роботсе страницу 2, шанс быть проиндексированной страницы 2 сразу растет. Понимаете ?

Надіслати
Поділитися на інших сайтах


Только что, kulinenko сказал:

все закрыто - никто не ходит

но адрес на демку я раздую, и показываю примеры работы модулей

 

2 минуты назад, kulinenko сказал:

ссылочный внутряк не может быть "указан" в роботсе


ага, а какже  страница авторизации?
корзины? Это же внтряк?
 

 

3 минуты назад, kulinenko сказал:

А вы возьмите на демку ссылок купите и трафа полейте и посмотрите что будет ))

Ничего не будет

 

 

Надіслати
Поділитися на інших сайтах

1 час назад, Yoda сказал:

У меня нет проблем, а вы пытаясь раскрыть тему, доносите поверхностные знания, к сожалению еще и несколько плавая в ней.

Я ждал подобного какого-то едкого комментария в стиле все баобабы а я дартаньян.

Так вот предлагаю ********* чуть чуть и подумать о том, что когда мы отдаем в заголовке запрет индексации, бот дальше не идет.
А когда не идет бот, у нас нет нагрузки на сервер, нет скачивания скриптов, изображений, стилей.
И это существенно экономит серверные ресурсы...

 

К сожалению дальше обрывочных знаний из сео-блогов вы не ушли и не смотрите на проблему комплексно, а лишь пытаетесь отстаивать свою частично верную версию.

 

Называется это - нулевая экспертиза. 

эх как зацепило))) Удачи вам еще раз "в экспертизах"))) советую прочитать еще раз старпост

 

51 минуту назад, Nameless сказал:

Если ПС видит трафик на страницы или по другому решает, что она нужна она должны быть полезна пользователям все равно будет в индексе несмотря на запреты.

если стоит мета ноиндекс то страница не будет проиндексирована НИКАК

Надіслати
Поділитися на інших сайтах


2 минуты назад, chukcha сказал:

но адрес на демку я раздую, и показываю примеры работы модулей

значит главная страница рано или поздно попадет в индекс но с скрытым сниппетом где будет написано "пользователь скрыл содержимое страницы"

 

3 минуты назад, chukcha сказал:

ага, а какже  страница авторизации?
корзины? Это же внтряк?

внутряк - это внутренние текстовые обычные гиперссылки

 

4 минуты назад, chukcha сказал:

Ничего не будет

вы попробуйте, а потом будете утверждать

 

Я лично пробовал много раз

Надіслати
Поділитися на інших сайтах


1 минуту назад, kulinenko сказал:

то страница не будет проиндексирована

Что вы понимаете под индексацией

Если при создании страницы (появлении в ссылочной массе) не было тега - Страница будет проиндексирована?
А затем при след обходе появится тег - Что будет со страницей?

Надіслати
Поділитися на інших сайтах

1 минуту назад, kulinenko сказал:

значит главная страница рано или поздно попадет в индекс но с скрытым сниппетом где будет написано "пользователь скрыл содержимое страницы"

 

внутряк - это внутренние текстовые обычные гиперссылки

 

вы попробуйте, а потом будете утверждать

 

Я лично пробовал много раз

У меня таких демок три.. за много лет  и их нет в индексе

Ио что вы льете траф на на сайт, а сайт закрыт роботс  - это ваши проблемы
Я вам показал - индексирующие боты ЧИТАЮТ robots.txt
И никуда не ходят

Надіслати
Поділитися на інших сайтах

Только что, chukcha сказал:

Что вы понимаете под индексацией

у индексации есть четкое определение - попадание в "базу пс" и соответственно в выдачу пс

 

2 минуты назад, chukcha сказал:

Если при создании страницы (появлении в ссылочной массе) не было тега - Страница будет проиндексирована?

разъясните свою мысль в скобках пожалуйста

 

3 минуты назад, chukcha сказал:

1 не было тега - Страница будет проиндексирована?
2 А затем при след обходе появится тег - Что будет со страницей?

1 да будет

2 будет деиндекс

вроде же просто

Надіслати
Поділитися на інших сайтах


2 минуты назад, chukcha сказал:

У меня таких демок три.. за много лет  и их нет в индексе

Ио что вы льете траф на на сайт, а сайт закрыт роботс  - это ваши проблемы
Я вам показал - индексирующие боты ЧИТАЮТ robots.txt
И никуда не ходят

я не знаю какие ссылки стоят на них и не могу оценить ваши демки итд итп. Тем более выше я написал что роботс это рекоменда ( может проиндексить а может и нет ). Плюс мы в данной теме говорим про страницы на сайте , а не про сайт в целом - я все таки делаю различие между этими понятиями. Так же У меня были примеры закрытых сайтов ( тестовых в роботсе) с попаданием в индекс, и были те что не попадали. У ТС конкретный пример страниц которые закрыты в роботсе но в индексе, и у меня есть таких страниц куча - причина ссылочное внутряк. Внизу пример

Screenshot_2021-06-03 Покрытие.png

Надіслати
Поділитися на інших сайтах


3 минуты назад, kulinenko сказал:

вроде же просто

А проверьте

(деиндекс? а можно поподробнее ..)

 

Т.е. тема заголовка вас не смущает?

 

Проще поменять адрес - отдать 404(410)
Или удалить странцу из серчконсоли, чем ждать деиндекса (если такой есть)


 

Надіслати
Поділитися на інших сайтах

12 минут назад, kulinenko сказал:

если стоит мета ноиндекс то страница не будет проиндексирована НИКАК

 

серчконсоль говорит об обратном

Надіслати
Поділитися на інших сайтах

4 минуты назад, kulinenko сказал:

У меня были примеры закрытых сайтов ( тестовых в роботсе) с попаданием в индекс,

ага, просто забыл закрыть..

Еще раз поясните и приведите пример - что такое ссылочный внутряк?

Надіслати
Поділитися на інших сайтах

3 минуты назад, chukcha сказал:

(деиндекс? а можно поподробнее ..)

 

в народе - "уход из индекса"

 

4 минуты назад, chukcha сказал:

Т.е. тема заголовка вас не смущает?

 

как раз выше показал скрин полностью аналогичный старпосту и заголовку темы

 

4 минуты назад, chukcha сказал:

Проще поменять адрес - отдать 404(410)

Или удалить странцу из серчконсоли, чем ждать деиндекса (если такой есть)


 

это совсем другой случай , не путайте пожалуйста. ТС хочет деиндексировать страницы а не удалять их или временно скрывать каждые 90 дней

 

4 минуты назад, Nameless сказал:

серчконсоль говорит об обратном

покажите скрин где страница в индексе с мета ноиндекс, такого нету у вас .

 

4 минуты назад, chukcha сказал:

ага, просто забыл закрыть..

нет, не угадали, ничего я не забыл

 

5 минут назад, chukcha сказал:

Еще раз поясните и приведите пример - что такое ссылочный внутряк?

это ссылка внутри сайта с одной страницы на другую, чеж сложно то так ?

 

внизу скрин изучите пожалуйста

Screenshot_2021-06-03 Проверка URL.png

Надіслати
Поділитися на інших сайтах


почему никто не говорит, что сканирование и индексирование это разные вещи...

в роботс мы даем рекомендации по сканированию сайта, и так как на мусорных страницах могут быть ссылки на полезные, например на странице сортировки могут быть ссылки на карточки товаров, и закрыв все это в роботс, робот гугла просто их даже не просканирует... не говоря уже про индексирование, т.к. это уже какбы второй этап

а вот решение про индексирование страниц гугл принимает исходя из тех, которые он просканировал... и если страница имеет ноиндекс, то соответственно в индекс она никак не попадет

 

если следовать совету, когда рекомендуют закрывать и в роботсе и на странице через ноиндекс, то:

1. гугл смотрит файлик роботс, и НЕ сканирует мусорные страницы

2. дальше гугл заходит на сайт, сканирует полезные страницы, и вуаля через них попадает на эти самые мусорные страницы

после этого вы и получаете в своей консоли сообщение "Проиндексировано, несмотря на блокировку в файле robots.txt"

Змінено користувачем Zetx
Надіслати
Поділитися на інших сайтах


Столько обсуждений простейшего вопроса... Ну все же описано на самом гугле. 
 

1 час назад, Zetx сказал:

2. дальше гугл заходит на сайт, сканирует полезные страницы, и вуаля через них попадает на эти самые мусорные страницы

после этого вы и получаете в своей консоли сообщение "Проиндексировано, несмотря на блокировку в файле robots.txt"

Не попадает.
Ноуиндекс в роботс именно от этого и защищает - от переходов по внутренним ссылкам на мусорные страницы.
Чтобы не дергать сервер попусту, открывая миллион страниц фильтра.

НО - краулер может все равно прийти на страницу, закрытую в роботс, если на нее ведет внешняя ссылка.
Если бот попадает на страницу подобным образом, в обход роботс, признает её годной и индексирует, тогда и появляется предупреждение: "проиндексировано, хотя в роботс закрыто от сканирования".
Это не какая-то ошибка, это просто уведомление, чтобы владелец сайта обратил внимание, и, возможно, выбрал - оставить страницу в индексе или закрыть noindex-ом на самой странице.
И вот тут-то пригодится ноуиндекс в теге (если страницу и правда не надо индексировать). А можно проставить его заранее, на всякий случай :)

Также бот может и без внешних ссылок, по одному ему ведомым причинам решить, что страница очень нужная, и пойти ее индексировать любой ценой. Рассматривать этот вариант бесполезно, если боту чего в голову стукнуло, то и 20 ноуиндексов в любых местах его не остановят.

Змінено користувачем Shureg
Надіслати
Поділитися на інших сайтах


2 часа назад, Zetx сказал:

почему никто не говорит, что сканирование и индексирование это разные вещи...

я об этом пишу уже две страницы почти в каждом посте

 

1 час назад, Shureg сказал:

Не попадает.

именно так и попадает - по ссылочному внутряку либо внешке

 

1 час назад, Shureg сказал:

Ноуиндекс в роботс именно от этого и защищает - от переходов по внутренним ссылкам на мусорные страницы.
Чтобы не дергать сервер попусту, открывая миллион страниц фильтра.

как раз наоборот и не защищает - по этому и страницы в индексе, а вот лямы страниц фильтра как раз наоборот - на них нету ссылок - по этому и не в индексе( если под запретом)

 

1 час назад, Shureg сказал:

если на нее ведет внешняя ссылка.

не внешняя а любая ссылка.

 

1 час назад, Shureg сказал:

Рассматривать этот вариант бесполезно, если боту чего в голову стукнуло, то и 20 ноуиндексов в любых местах его не остановят.

страница  под мета ноиндекс не будет проиндексирована никогда, не выдумывайте

Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
  • Зараз на сторінці   0 користувачів

    • Ні користувачів, які переглядиють цю сторінку
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.