Перейти к содержанию

Рекомендуемые сообщения

Доброго времени суток.

Друзья, решил занятся дублем контента у своего сайта, вычитал, что частично (или полностью) вопрос можно решить, прописав в robots.txt запрет к индесации некоторых разделов, в частности, содержание файла:

User-agent: *

Disallow: /admin/

Disallow: /catalog/

Disallow: /system/

Disallow: /install/

Disallow: /download/

так, как сайт был проиндексирован, решил удалить из поиска некоторые страницы (практически все, так как все страницы имеют вид:

http://generalclimate.org/index.php?route=information/information&information_id=5

а хотелось бы, чтобы строка выглядела вот так:

http://www.generalclimate.org/montaz-kondicionerov)

так вот, решил удалять страницы вручную через Яндекс.Вебмастер, но при попытке удалить урл, получил такой ответ:

Нет оснований для удаления. Сервер не возвращает код 404, индексирование не запрещено ни в robots.txt, ни метатегом noindex.

Подскажите пожалуйста, что необходимо дописать в robots.txt, для того чтобы запретить все левые урл кроме чпу

P.S. Простите если напутал в определениях, но смысл я думаю понятен.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Неужели, придется в robots.txt прописывать каждую страницу? Если да, то подскажите правильность написание, пример:

Disallow: /http://generalclimate.org/index.php?route=information/information&information_id=5/

Disallow: /ttp://generalclimate.org/index.php?route=checkout/cart/

Disallow: /http://generalclimate.org/index.php?route=information/contact/

и т.д.

все верно прописано или нет?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Ребят, ну подскажите чайнику плиз, перепробовал варианты:

Disallow: /www.generalclimate.org/index.php?route=information/information&information_id=5/

Disallow: /http://generalclimate.org/index.php?route=information/information&information_id=5/

Disallow: /generalclimate.org/index.php?route=information/information&information_id=5/

все равно, статус: РАЗРЕШЕН

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

УРА, методом проб и ошибок, вопрос решен, как же трудно мне дается программирование :lol:

Disallow: /index.php?route=information/information&information_id=5/

запрещает индексацию:

http://generalclimate.org/index.php?route=information/information&information_id=5/

хух, все можно идти спать)))

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

УРА, методом проб и ошибок, вопрос решен, как же трудно мне дается программирование :lol:

Disallow: /index.php?route=information/information&information_id=5/

запрещает индексацию:

http://generalclimate.org/index.php?route=information/information&information_id=5/

хух, все можно идти спать)))

Страницы с ЧПУ УРЛ не содержат
index.php?
т.е. можно использовать конструкцию вида:

Disallow: /index.php?
Используя

Disallow: /index.php?route=information/information&information_id=5/
Вы запретите лишь 1 страницу, прописывая так каждую, то файл robots.txt может превысить допустимый размер и будет игнорироваться поисковыми роботами.

Подробнее о robots.txt можно прочитать тут.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Господа знатоки, гляньте, пожалуйста, мой robots.txt и выскажите по нему замечания. Может чего не так, может что лишнее, может чего не хватает:

User-agent: *
Disallow: /admin
Disallow: /index.php?route=account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/search
Disallow: /index.php?route=information/contact/captcha
Disallow: /index.php?route=information/information&information_id=3
Disallow: /index.php?route=information/information&information_id=4
Disallow: /index.php?route=information/information&information_id=5
Disallow: /index.php?route=information/information&information_id=6
Disallow: /index.php?route=information/information&information_id=7

Disallow: /*?page               
#Запрещаем индексировать все страницы продукции производителя, кроме первой. 
#Тут две стороны медали - с одной мы избавляемся от дублей тайтлов и мета-тегов,
#а с другой теряем все страницы с товарами одной фирмы, кроме первой

Disallow: /*?manufacturer
#Запрещаем индексировать все страницы производителей, так как они уже есть у нас с сео-урл

Disallow: /*?sort
#Запрещаем индексировать все страницы с разными видами сортировок, ибо иначе у нас будет десяток дублей одной и той же страницы

Disallow: /*?order
#Запрещаем индексировать все страницы с разными видами порядка вывода, причины те же

Disallow: /*?keyword
#Запрещаем индексировать все страницы с метками
Sitemap: http://МОЙ_САЙТ/sitemap.xml

Allow: /

Собирал его из кусков, выложенных в разных темах, ну и добавил пару своих строк.

Встроенный генератор sitemap не использую, генерирую другой прогой. Файл у меня лежит в корне.

.htaccess выглядит так:

Options +FollowSymlinks

# Запретить листинг директорий 
Options -Indexes

# Закрыть доступ к файлам шаблонов
<FilesMatch "\.tpl">
Order deny,allow
Deny from all
</FilesMatch>

# Необходимо для ЧПУ.
RewriteEngine On
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^([^?]*) index.php?_route_=$1 [L,QSA]

Подскажите, чего надо добавить, или убрать?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Вместо

Disallow: /index.php?route=information/information&information_id=3
Disallow: /index.php?route=information/information&information_id=4
Disallow: /index.php?route=information/information&information_id=5
Disallow: /index.php?route=information/information&information_id=6
Disallow: /index.php?route=information/information&information_id=7
можно использовать

Disallow: /index.php?route=information/information&information_id=
если нет разрешенных index.php?route=information/information&information_id=*
  • +1 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

...Подскажите, чего надо добавить, или убрать?

В .htaccess ещё можете добавить это:

RewriteEngine on
rewritecond %{http_host} ^domain.com [nc]
rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]
Тогда, как бы пользователь у себя на компе не вводил название вашего сайта, всё равно будет видеть http://www.domain.com

=======================================================================================

И ещё, много полезного и интересного, можете подчерпнуть из статей "Мой идеальный Htaccess. Список запрета."

A Close to perfect .htaccess ban list - Part 2

A Close to perfect .htaccess ban list - Part 1

  • +1 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

В адресной строке ввожу:

http://www.Мой сайт.ru/robots.txt

Выдаёт следующее:

Изображение

Всё начало происходит после того как я Version 0.1.6 превратил в Version 0.1.9

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ну, в принципе, всё правильно, Вам его не даёт показать .htaccess, удалите его (или переименуйте) и увидите www.мой_сайт.ru/robots.txt. Только зачем это?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

До обновления, про не найденную страницу сообщения не было, при этом robots.txt открывался гладко (хотя был пустой :) ) и .htaccess присутствовал, как обновился, началось.

Может он мне и не нужен, я до конца и не знаю, но раз лежит в архиве, этаж неспроста :huh: , тот, кто это всё мутит, наверно по боле меня разбирается.

Может мне не стоит переживать и забить на этот robots.txt ?

Успокойте меня пожалуйста!

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Успокойте меня пожалуйста!

Файл Robots.txt - необходим для того, чтобы указать поисковой машине, какие страницы сайта индексировать не следует.

Например, в официальной сборки

OpenCart файл Robots.txt отсутствует изначально. А в "нашей", уже добавлен, так сказать для удобства, и его применение/использование, зависит только от Вас самих. В общем, когда Вы задумаетесь о том, как бы сделать так, чтобы эта страница или этот каталог не попали в индекс поисковой машины, вот тогда Вам и потребуется этот файл. Но, по правде говоря, поисковые системы и так не индексируют страницы, на которые требуются логин и пароль, а во-вторых, если на эту страницу никто не ссылается, то она никогда и не будет найдена поисковиками. Так что, можете особо не париться.

Надеюсь, успокоил.. ) :rolleyes:
  • +1 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Файл Robots.txt - необходим для того, чтобы указать поисковой машине, какие страницы сайта индексировать не следует.

Например, в официальной сборки OpenCart файл Robots.txt отсутствует изначально. А в "нашей", уже добавлен, так сказать для удобства, и его применение/использование, зависит только от Вас самих. В общем, когда Вы задумаетесь о том, как бы сделать так, чтобы эта страница или этот каталог не попали в индекс поисковой машины, вот тогда Вам и потребуется этот файл. Но, по правде говоря, поисковые системы и так не индексируют страницы, на которые требуются логин и пароль, а во-вторых, если на эту страницу никто не ссылается, то она никогда и не будет найдена поисковиками. Так что, можете особо не париться.

Надеюсь, успокоил.. ) :rolleyes:

Так я в принципе и думал, вот и по этому он у меня был "гол как сокол", но после Вашего успокления я как за железной дверью :rolleyes:.

Ещё раз Спасибо!

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

После добавления

RewriteEngine on
rewritecond %{http_host} ^domain.com [nc]
rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]
Не заходит в админку, как исправить?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

После добавления

RewriteEngine on
rewritecond %{http_host} ^domain.com [nc]
rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]
Не заходит в админку, как исправить?
"Не заходит в админку", после добавления этого блока? Быть такого не может... ;) domain.com исправили на своё? Покажите содержимое .htaccess

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Мой .htaccess

# Подробнее на https://myopencart.com

Options +FollowSymlinks

# Запретить листинг директорий 
Options -Indexes

# Закрыть доступ к файлам шаблонов
<FilesMatch "\.tpl">
Order deny,allow
Deny from all
</FilesMatch>

# Необходимо для ЧПУ.
RewriteEngine On
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^([^?]*) index.php?_route_=$1 [L,QSA]

### Additional Settings that may need to be enabled for some servers 
### Uncomment the commands by removing the # sign in front of it.
### If you get an "Internal Server Error 500" after enabling, then restore the # as this means your host doesn't allow that.

# 1. If your cart only allows you to add one item at a time, it is possible register_globals is on. This may work to disable it:
php_flag register_globals off

###RewriteEngine on
###rewritecond %{http_host} ^сайт.ru [nc]
###rewriterule ^(.*)$ http://www.сайт.ru/$1 [r=301,nc]

Тут есть решение, только не знаю можно так делать? Что вообще значит этот RewriteEngine on?

https://opencartforum.com/topic/618-доработка-модуль-опроса-для-oc-148b/page__view__findpost__p__6004

Изменено пользователем SSShop

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Я не супер знаток .htaccess, но могу предположить, что второй раз писать RewriteEngine on не надо (кстати, в приведёном Вами файле он закомментирован).

Файл должен выглядеть так:

# Подробнее на https://myopencart.com

Options +FollowSymlinks

# Запретить листинг директорий 
Options -Indexes

# Закрыть доступ к файлам шаблонов
<FilesMatch "\.tpl">
Order deny,allow
Deny from all
</FilesMatch>

# Необходимо для ЧПУ.
RewriteEngine On
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^([^?]*) index.php?_route_=$1 [L,QSA]
rewritecond %{http_host} ^сайт.ru [nc]
rewriterule ^(.*)$ http://www.сайт.ru/$1 [r=301,nc]

### Additional Settings that may need to be enabled for some servers 
### Uncomment the commands by removing the # sign in front of it.
### If you get an "Internal Server Error 500" after enabling, then restore the # as this means your host doesn't allow that.

# 1. If your cart only allows you to add one item at a time, it is possible register_globals is on. This may work to disable it:
php_flag register_globals off

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Все равно не заходит в админку(

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Все равно не заходит в админку(

Магия, что тут скажешь.. ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

tim21701, покажите свой файл, раз у вас работает, может я не туда вставляю.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

А как понять фразу "не заходит в админку"? Не открывается страница с формой ввода логина и пароля, или открывается, но дальше не пускает?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
упс.. не то скопировал, сори :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

monax, ввожу имя и пароль, он обновляет страничку и опять надо вводить.

Сделал наоборот, вместо:

rewritecond %{http_host} ^domain.com [nc]
rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]
сделал:

rewritecond %{http_host} ^www.domain.com [nc]
rewriterule ^(.*)$ http://domain.com/$1 [r=301,nc]

Так все нормально. Видимо админка без www только работает.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

а на мой взгляд, запрет индексации на дубли делать не надо,- у гугля и яндекса особое отношение к интернет магазинам

надо просто сгенерировать карту сайта для гугля и для яндекса, удалить из них дубликаты, и через инструменты для вебмастера вышеупомянутых систем отправить им файлы sitemap.

Просто карта сайта показывает поисковикам важные для Тебя (владельца сайта) страницы, но решение остается не за нами,- им виднее какую из страниц сайта будет разумнее преподнести пользователю на обозрение.

а если запретить индексацию страницы, то у поисковика уже выбора не остаётся,- только удаление из поиска

PS - хороший генератор карт сайта тута http://www.wonderwebware.com/

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти

  • Последние посетители   0 пользователей онлайн

    Ни одного зарегистрированного пользователя не просматривает данную страницу

×

Важная информация

На нашем сайте используются файлы cookie и происходит обработка некоторых персональных данных пользователей, чтобы улучшить пользовательский интерфейс. Чтобы узнать для чего и какие персональные данные мы обрабатываем перейдите по ссылке. Если Вы нажмете «Я даю согласие», это означает, что Вы понимаете и принимаете все условия, указанные в этом Уведомлении о Конфиденциальности.