Перейти к содержанию

Рекомендуемые сообщения

Уважаемые знатоки SEO и не только!

Прежде всего хочу извиниться за свой дилетантский  вопрос, тем более, что он ни раз уже поднимался на форуме.

Я перечитал наверное здесь всё что есть, но только больше запутался.

Хотелось бы раз и надолго поставить точку в этом вопросе и получить понимание.

В ходе поиска ответа на вопрос, мне попадались как разные варианты решения данного вопроса, так и разные мнения и даже споры среди специалистов.

В результате для себя конечного мнения я так и не сформировал, а лишь немного систематизировал то, что нашел. И так:

 

ЗАДАЧА: Закрыть тестовый сайт (поддомен) от индексации роботов НАГЛУХО! ГАРАНТИРОВАННО! РАЗ И НА ВСЕГДА!

    ВЕСЬ САЙТ! включая главную страницу (точнее информацию, которая на ней содержится).

 

ПРОСЬБА: Помогите советом выбрать оптимальный способ или несколько сразу.

 

СПОСОБЫ:

 

Способ 1. В файле robots.txt прописать:

User-agent: *
Disallow: /

 

(и на всякий случай, т.к. есть мнения, что для Яндекса надо персонально)

User-agent: Yandex
Disallow: /

 

Способ 2. Закрыть сайт с помощью мета-тега name=”robots

Почему-то пишут, что данный способ является более предпочтительным. Для скрытия от индексации внутри зоны <head> </head> документа устанавливается следующий код:

<meta name="robots" content="noindex, nofollow"/>

или (полная альтернатива):

<meta name="robots" content="none"/>

 

3 Вопроса:

1.    Действительно ли этот метод приоритетней 1-го?

2.    Как добавить этот тег абсолютно на все без исключения страницы сайта внутри зоны <head> </head>?

 Можно этот код добавить через админку: Дополнения - Статистика - Google Analytics???

3.    Почему пишут, что при таком методе - «Важно, чтобы эти самые страницы не должны быть закрыты через robots.txt»? Действительно ли надо или/или? Вот здесь человек пишет о том, что надо и то и другое сразу применять и на гугл ссылается.

 

Способ 3. С помощью настроек сервера в файле .htaccess

Почему-то пишут, что иногда боты не реагируют на запреты, установленные указанными выше способами. Тогда приходиться решать вопрос на уровне сервера с помощью файла .htaccess.

 

Вариант 1. Прописать в файле .htaccess код:

SetEnvIfNoCase User-Agent "^Googlebot" search_bot

SetEnvIfNoCase User-Agent "^Yandex" search_bot

SetEnvIfNoCase User-Agent "^Yahoo" search_bot

 SetEnvIfNoCase User-Agent "^Aport" search_bot

SetEnvIfNoCase User-Agent "^msnbot" search_bot

SetEnvIfNoCase User-Agent "^spider" search_bot

SetEnvIfNoCase User-Agent "^Robot" search_bot

SetEnvIfNoCase User-Agent "^php" search_bot

SetEnvIfNoCase User-Agent "^Mail" search_bot

SetEnvIfNoCase User-Agent "^bot" search_bot

SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot

SetEnvIfNoCase User-Agent "^Snapbot" search_bot

SetEnvIfNoCase User-Agent "^WordPress" search_bot

SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot

SetEnvIfNoCase User-Agent "^Parser" search_bot

 

Вопрос: В какое место файла .htaccess надо это вставлять? После RewriteBase / или где-то еще?

 

2 другие варианта 3-го способа не хочется использовать из-за неудобства, но я их тоже здесь приведу, чтобы не потерять.

Вариант 2.  в .htaccess ограничить доступ только вашим ip (здесь).

Вариант 3.  в .htaccess ограничить доступ по паролю (здесь).

 

Классный ответ по теме в другой теме))

@Otvet, так что же делать?

Не закрывать, не подпирать и цепочку не вешать, ведь и через окно залезут если очень надо?

Может для параноиков сделать всё сразу, еще и окна заколотить и на том успокоиться? :)

Или всё же нет в этом никакого смысла и достаточно robots.txt с содержимым

 

User-agent: *
Disallow: /

 

и баста!!!???

Изменено пользователем Paint

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Наглухо не получится..
есть robots.txt или нет, но бот будет заходить
есть meta robots или нет , но бот будет заходить

robots.txt - это всего лишь указание для ПРАВИЛЬНЫХ ботов
неправильные боты игнорят robots.txt

 

33 минуты назад, Paint сказал:

Вопрос: В какое место файла .htaccess надо это вставлять? После RewriteBase / или где-то еще?

В любое, но что єто даст непонятно
Будет установлена серверная переменная, которая говорит что пришел бот.. А вот что делать с ним дальше нужно принимать решение

Как показал практика, активных ботов не так уж и много до 20, остальные - так себе.. все равно придут не спросясь

Причем пауки размножаются как хотят.

Самый простой способ - это авторизация.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
49 минут назад, Paint сказал:

User-agent: *
Disallow: /

 

и баста!!!???

robots вполне достаточно

 

12 минут назад, chukcha сказал:

активных ботов не так уж и много до 20, остальные - так себе

Основной траффик идет с Гугла и Яндекса, и они понимают эту директиву так как надо

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
16 минут назад, chukcha сказал:

Самый простой способ - это авторизация.

Самый простой или самый надежный?

 

Авторизация, имеется ввиду это:

Вариант 3.  в .htaccess ограничить доступ по паролю (здесь).

 

или закрытие сайта из админки - перевод в режим обслуживания?

 

Где-то на форуме писали, что в режиме обслуживания сайт индексируются аж бегом.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
10 минут назад, Gusev сказал:

Основной траффик идет с Гугла и Яндекса, и они понимают эту директиву так как надо

Понимать и следовать указаниям - это разные вещи

Запретить индексацию с помощью доступа к сайту только по паролю

авторизация может быть разная

можно используя htppaswd
можно форму авторизации вешать

Тут выбирать вам

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Перенести всё на локальный сервер, создав поддомен, чтоб лиц модули работали.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
2 часа назад, chukcha сказал:

Понимать и следовать указаниям - это разные вещи

Запретить индексацию с помощью доступа к сайту только по паролю

авторизация может быть разная

можно используя htppaswd
можно форму авторизации вешать

Тут выбирать вам

я использую и все ок) 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
5 часов назад, chukcha сказал:

Запретить индексацию с помощью доступа к сайту только по паролю

Имя и пароль сложные надо использовать или в данном случае это не принципиально?

Т.е. по принципу "абы было" и уже не полезут.

Подбором паролей боты я надеюсь не занимаются?)))

 

3 часа назад, prived сказал:

я использую и все ок) 

Но в robots так же закрыть, на всякий пожарный, ведь не помешает?) 

 

Еще одна ссылочка на статью по теме (чтобы не потерять).

И еще одна) - Защита сайта с помощью .htaccess и .htpasswd

Изменено пользователем Paint

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Вы с какой целью замарачиваетесь?:D Похоже на парною)))

У Вас реальные секреты - делайте авторизацию.

Если боитесь показывать ПС неготовый сайт, то закрывайте любым перечисленным способом.

 

Изменено пользователем florapraktik

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
2 часа назад, florapraktik сказал:

Вы с какой целью замарачиваетесь? Похоже на парною)))

Любитель заморочиться) Это сильнее меня)

2 часа назад, florapraktik сказал:

У Вас реальные секреты - делайте авторизацию.

Если боитесь показывать ПС неготовый сайт, то закрывайте любым перечисленным способом.

Ни каких секретов.

Сайт делается на поддомене, как только будет более-менее готов перенесу на основной домен.

Надо чтобы при индексации сайта на основном домене ПС не воспринимали его как дубликат другого, ранее проиндексированного тестового сайта (если его не закрыть).

Далее сайт на тестовом поддомене будет использоваться по своему назначению, т.е. будет иметь место быть и не надо, чтобы он индексировался, чтобы это не сказывалось негативно на индексации основного.

Тривиальная задача в общем-то, ничего военного.

 

P. S.  Для нубов вроде меня)

Если кто-то решит поэкспериментировать с Вариант 3.  (в .htaccess ограничить доступ по паролю) на локалке (Open Server), то обязательно прописывайте полный (абсолютный) путь к файлу .htpasswd, т.е. от самого раздела HD на котором установлен Open Server.

Получиться должно примерно так:

AuthType Basic
AuthName "Password Protected Area"
AuthUserFile E:/OSPanel/domains/www-auth/.htpasswd
Require valid-user

Потом создаем папку "www-auth"  (можете использовать любое имя) и закидываем в нее файл .htpasswd (можете использовать любое имя). Только не забудьте тогда поменять имена папки и файла в коде файла .htaccess.

Файл .htpasswd создается утилитой htpasswd.exe, которую можно найти в Open Server, например в папке E:\OSPanel\modules\http\Apache-2.4+Nginx-1.10\bin (или скачать по ссылке из статьи, в которой подробно описывается как создать файл .htpasswd и где его размещать).

 

В общем, разобрался с тем как закрыть сайт паролем, но не уверен в том, что до конца разобрался с вопросом по теме.

Когда заходишь на сайт через Google Chrome и вводишь пароль, то выскакивает стандартное сообщение "Сохранить пароль для этого сайта в Google?":-D

Не хватает только вариантов: a)Сохранить  b)Сохранить и передать поисковому боту :-)

Изменено пользователем Paint

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

@Paint , не стал читать эти все рассуждения и слухи. Отвечу лаконично.

 

Да, боты игнорируют все эти ноиндекс, нофолоу, роботс, 404 и прочее и сканируют страницы. Они имеют на это право, да и пусть сканируют. Они так же сканируют текст с протоколом http:// и интерпретируют это как ссылку, по которой переходят. Так же атрибут  nofollow снижающий "вес" ссылки, уже много лет как её не снижает, и это давно заметили сеошники и сейчас биржи по покупке ссылок предлагают их купить, чего раньше не было. Но времена меняются..

 

15 часов назад, Paint сказал:

или закрытие сайта из админки - перевод в режим обслуживания?

 

Где-то на форуме писали, что в режиме обслуживания сайт индексируются аж бегом.

Балаболы! Это всё равно что сказать что 404 код в индекс попадает.

Тут скорее всего была ситуация такая: админ забыл перевести тестовый сайт в "Режим обслуживания", страницы попали в индекс и начали конкурировать с основным сайтом (Аффилированность), это заметил хозяин сайта, и начал предъявлять претензии, а админ чтоб не быть "лохом" в глазах заказчика, быстренько перевел сайт в режим обслуживания и всё спихнул на "наглых" ботов. Вот отсюда и слухи возникают.

 

Тестовый сайт чтоб не попадал в индекс и не аффилировал с основным сайтом надо закрывать:

15 часов назад, Paint сказал:

Способ 1. В файле robots.txt прописать:

User-agent: *
Disallow: /

 

Способ 4. Включить Режим обслуживания:

Это надо делать в самом начале, чтоб страницы не попали в индекс!

Если попали, то уничтожаем первым способом и потом в режим обслуживания.

 

Скажу сразу, что Режим обслуживания - предпочтительней, так как вы можете забыть про роботс и залить с теста на основной ненужный роботс, который удалит из индекса ваши места в ТОП-е. :-D

Это касается так же и других заморочек 2 и 3 способов.

 

 

 

Пруфы с роботс (сайт виден пользователям, робот его сканирует, но в индекс не попадает):

https://www.google.com/search?q=site%3Ademo.optimcart.com

https://yandex.ru/search/?text=site%3Ademo.optimcart.com

http://demo.optimcart.com/robots.txt

 

Пруфы с Режимом обслуживания (сайт виден только авторизованному админу, робот сканирует сканирует только одну страницу, но в индекс не попадает):

У любого правильного админа куча таких пруфов.)))

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти

  • Последние посетители   0 пользователей онлайн

    Ни одного зарегистрированного пользователя не просматривает данную страницу

×

Важная информация

На нашем сайте используются файлы cookie и происходит обработка некоторых персональных данных пользователей, чтобы улучшить пользовательский интерфейс. Чтобы узнать для чего и какие персональные данные мы обрабатываем перейдите по ссылке. Если Вы нажмете «Я даю согласие», это означает, что Вы понимаете и принимаете все условия, указанные в этом Уведомлении о Конфиденциальности.