Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

Доброго времени суток.

Друзья, решил занятся дублем контента у своего сайта, вычитал, что частично (или полностью) вопрос можно решить, прописав в robots.txt запрет к индесации некоторых разделов, в частности, содержание файла:

User-agent: *

Disallow: /admin/

Disallow: /catalog/

Disallow: /system/

Disallow: /install/

Disallow: /download/

так, как сайт был проиндексирован, решил удалить из поиска некоторые страницы (практически все, так как все страницы имеют вид:

http://generalclimate.org/index.php?route=information/information&information_id=5

а хотелось бы, чтобы строка выглядела вот так:

http://www.generalclimate.org/montaz-kondicionerov)

так вот, решил удалять страницы вручную через Яндекс.Вебмастер, но при попытке удалить урл, получил такой ответ:

Нет оснований для удаления. Сервер не возвращает код 404, индексирование не запрещено ни в robots.txt, ни метатегом noindex.

Подскажите пожалуйста, что необходимо дописать в robots.txt, для того чтобы запретить все левые урл кроме чпу

P.S. Простите если напутал в определениях, но смысл я думаю понятен.

Надіслати
Поділитися на інших сайтах


Неужели, придется в robots.txt прописывать каждую страницу? Если да, то подскажите правильность написание, пример:

Disallow: /http://generalclimate.org/index.php?route=information/information&information_id=5/

Disallow: /ttp://generalclimate.org/index.php?route=checkout/cart/

Disallow: /http://generalclimate.org/index.php?route=information/contact/

и т.д.

все верно прописано или нет?

Надіслати
Поділитися на інших сайтах


Ребят, ну подскажите чайнику плиз, перепробовал варианты:

Disallow: /www.generalclimate.org/index.php?route=information/information&information_id=5/

Disallow: /http://generalclimate.org/index.php?route=information/information&information_id=5/

Disallow: /generalclimate.org/index.php?route=information/information&information_id=5/

все равно, статус: РАЗРЕШЕН

Надіслати
Поділитися на інших сайтах


УРА, методом проб и ошибок, вопрос решен, как же трудно мне дается программирование :lol:

Disallow: /index.php?route=information/information&information_id=5/

запрещает индексацию:

http://generalclimate.org/index.php?route=information/information&information_id=5/

хух, все можно идти спать)))

Надіслати
Поділитися на інших сайтах


УРА, методом проб и ошибок, вопрос решен, как же трудно мне дается программирование :lol:

Disallow: /index.php?route=information/information&information_id=5/

запрещает индексацию:

http://generalclimate.org/index.php?route=information/information&information_id=5/

хух, все можно идти спать)))

Страницы с ЧПУ УРЛ не содержат
index.php?
т.е. можно использовать конструкцию вида:

Disallow: /index.php?
Используя

Disallow: /index.php?route=information/information&information_id=5/
Вы запретите лишь 1 страницу, прописывая так каждую, то файл robots.txt может превысить допустимый размер и будет игнорироваться поисковыми роботами.

Подробнее о robots.txt можно прочитать тут.

Надіслати
Поділитися на інших сайтах


Господа знатоки, гляньте, пожалуйста, мой robots.txt и выскажите по нему замечания. Может чего не так, может что лишнее, может чего не хватает:

User-agent: *
Disallow: /admin
Disallow: /index.php?route=account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/search
Disallow: /index.php?route=information/contact/captcha
Disallow: /index.php?route=information/information&information_id=3
Disallow: /index.php?route=information/information&information_id=4
Disallow: /index.php?route=information/information&information_id=5
Disallow: /index.php?route=information/information&information_id=6
Disallow: /index.php?route=information/information&information_id=7

Disallow: /*?page               
#Запрещаем индексировать все страницы продукции производителя, кроме первой. 
#Тут две стороны медали - с одной мы избавляемся от дублей тайтлов и мета-тегов,
#а с другой теряем все страницы с товарами одной фирмы, кроме первой

Disallow: /*?manufacturer
#Запрещаем индексировать все страницы производителей, так как они уже есть у нас с сео-урл

Disallow: /*?sort
#Запрещаем индексировать все страницы с разными видами сортировок, ибо иначе у нас будет десяток дублей одной и той же страницы

Disallow: /*?order
#Запрещаем индексировать все страницы с разными видами порядка вывода, причины те же

Disallow: /*?keyword
#Запрещаем индексировать все страницы с метками
Sitemap: http://МОЙ_САЙТ/sitemap.xml

Allow: /

Собирал его из кусков, выложенных в разных темах, ну и добавил пару своих строк.

Встроенный генератор sitemap не использую, генерирую другой прогой. Файл у меня лежит в корне.

.htaccess выглядит так:

Options +FollowSymlinks

# Запретить листинг директорий 
Options -Indexes

# Закрыть доступ к файлам шаблонов
<FilesMatch "\.tpl">
Order deny,allow
Deny from all
</FilesMatch>

# Необходимо для ЧПУ.
RewriteEngine On
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^([^?]*) index.php?_route_=$1 [L,QSA]

Подскажите, чего надо добавить, или убрать?

Надіслати
Поділитися на інших сайтах


Вместо

Disallow: /index.php?route=information/information&information_id=3
Disallow: /index.php?route=information/information&information_id=4
Disallow: /index.php?route=information/information&information_id=5
Disallow: /index.php?route=information/information&information_id=6
Disallow: /index.php?route=information/information&information_id=7
можно использовать

Disallow: /index.php?route=information/information&information_id=
если нет разрешенных index.php?route=information/information&information_id=*
  • +1 1
Надіслати
Поділитися на інших сайтах


...Подскажите, чего надо добавить, или убрать?

В .htaccess ещё можете добавить это:

RewriteEngine on
rewritecond %{http_host} ^domain.com [nc]
rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]
Тогда, как бы пользователь у себя на компе не вводил название вашего сайта, всё равно будет видеть http://www.domain.com

=======================================================================================

И ещё, много полезного и интересного, можете подчерпнуть из статей "Мой идеальный Htaccess. Список запрета."

A Close to perfect .htaccess ban list - Part 2

A Close to perfect .htaccess ban list - Part 1

  • +1 1
Надіслати
Поділитися на інших сайтах

Ну, в принципе, всё правильно, Вам его не даёт показать .htaccess, удалите его (или переименуйте) и увидите www.мой_сайт.ru/robots.txt. Только зачем это?
Надіслати
Поділитися на інших сайтах

До обновления, про не найденную страницу сообщения не было, при этом robots.txt открывался гладко (хотя был пустой :) ) и .htaccess присутствовал, как обновился, началось.

Может он мне и не нужен, я до конца и не знаю, но раз лежит в архиве, этаж неспроста :huh: , тот, кто это всё мутит, наверно по боле меня разбирается.

Может мне не стоит переживать и забить на этот robots.txt ?

Успокойте меня пожалуйста!

Надіслати
Поділитися на інших сайтах


Успокойте меня пожалуйста!

Файл Robots.txt - необходим для того, чтобы указать поисковой машине, какие страницы сайта индексировать не следует.

Например, в официальной сборки

OpenCart файл Robots.txt отсутствует изначально. А в "нашей", уже добавлен, так сказать для удобства, и его применение/использование, зависит только от Вас самих. В общем, когда Вы задумаетесь о том, как бы сделать так, чтобы эта страница или этот каталог не попали в индекс поисковой машины, вот тогда Вам и потребуется этот файл. Но, по правде говоря, поисковые системы и так не индексируют страницы, на которые требуются логин и пароль, а во-вторых, если на эту страницу никто не ссылается, то она никогда и не будет найдена поисковиками. Так что, можете особо не париться.

Надеюсь, успокоил.. ) :rolleyes:
  • +1 1
Надіслати
Поділитися на інших сайтах

Файл Robots.txt - необходим для того, чтобы указать поисковой машине, какие страницы сайта индексировать не следует.

Например, в официальной сборки OpenCart файл Robots.txt отсутствует изначально. А в "нашей", уже добавлен, так сказать для удобства, и его применение/использование, зависит только от Вас самих. В общем, когда Вы задумаетесь о том, как бы сделать так, чтобы эта страница или этот каталог не попали в индекс поисковой машины, вот тогда Вам и потребуется этот файл. Но, по правде говоря, поисковые системы и так не индексируют страницы, на которые требуются логин и пароль, а во-вторых, если на эту страницу никто не ссылается, то она никогда и не будет найдена поисковиками. Так что, можете особо не париться.

Надеюсь, успокоил.. ) :rolleyes:

Так я в принципе и думал, вот и по этому он у меня был "гол как сокол", но после Вашего успокления я как за железной дверью :rolleyes:.

Ещё раз Спасибо!

Надіслати
Поділитися на інших сайтах


После добавления

RewriteEngine on
rewritecond %{http_host} ^domain.com [nc]
rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]
Не заходит в админку, как исправить?
"Не заходит в админку", после добавления этого блока? Быть такого не может... ;) domain.com исправили на своё? Покажите содержимое .htaccess
Надіслати
Поділитися на інших сайтах

Мой .htaccess

# Подробнее на https://myopencart.com

Options +FollowSymlinks

# Запретить листинг директорий 
Options -Indexes

# Закрыть доступ к файлам шаблонов
<FilesMatch "\.tpl">
Order deny,allow
Deny from all
</FilesMatch>

# Необходимо для ЧПУ.
RewriteEngine On
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^([^?]*) index.php?_route_=$1 [L,QSA]

### Additional Settings that may need to be enabled for some servers 
### Uncomment the commands by removing the # sign in front of it.
### If you get an "Internal Server Error 500" after enabling, then restore the # as this means your host doesn't allow that.

# 1. If your cart only allows you to add one item at a time, it is possible register_globals is on. This may work to disable it:
php_flag register_globals off

###RewriteEngine on
###rewritecond %{http_host} ^сайт.ru [nc]
###rewriterule ^(.*)$ http://www.сайт.ru/$1 [r=301,nc]

Тут есть решение, только не знаю можно так делать? Что вообще значит этот RewriteEngine on?

https://opencartforum.com/topic/618-доработка-модуль-опроса-для-oc-148b/page__view__findpost__p__6004

Змінено користувачем SSShop
Надіслати
Поділитися на інших сайтах


Я не супер знаток .htaccess, но могу предположить, что второй раз писать RewriteEngine on не надо (кстати, в приведёном Вами файле он закомментирован).

Файл должен выглядеть так:

# Подробнее на https://myopencart.com

Options +FollowSymlinks

# Запретить листинг директорий 
Options -Indexes

# Закрыть доступ к файлам шаблонов
<FilesMatch "\.tpl">
Order deny,allow
Deny from all
</FilesMatch>

# Необходимо для ЧПУ.
RewriteEngine On
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^([^?]*) index.php?_route_=$1 [L,QSA]
rewritecond %{http_host} ^сайт.ru [nc]
rewriterule ^(.*)$ http://www.сайт.ru/$1 [r=301,nc]

### Additional Settings that may need to be enabled for some servers 
### Uncomment the commands by removing the # sign in front of it.
### If you get an "Internal Server Error 500" after enabling, then restore the # as this means your host doesn't allow that.

# 1. If your cart only allows you to add one item at a time, it is possible register_globals is on. This may work to disable it:
php_flag register_globals off
Надіслати
Поділитися на інших сайтах


А как понять фразу "не заходит в админку"? Не открывается страница с формой ввода логина и пароля, или открывается, но дальше не пускает?

Надіслати
Поділитися на інших сайтах


monax, ввожу имя и пароль, он обновляет страничку и опять надо вводить.

Сделал наоборот, вместо:

rewritecond %{http_host} ^domain.com [nc]
rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]
сделал:

rewritecond %{http_host} ^www.domain.com [nc]
rewriterule ^(.*)$ http://domain.com/$1 [r=301,nc]

Так все нормально. Видимо админка без www только работает.

Надіслати
Поділитися на інших сайтах


  • 5 weeks later...

а на мой взгляд, запрет индексации на дубли делать не надо,- у гугля и яндекса особое отношение к интернет магазинам

надо просто сгенерировать карту сайта для гугля и для яндекса, удалить из них дубликаты, и через инструменты для вебмастера вышеупомянутых систем отправить им файлы sitemap.

Просто карта сайта показывает поисковикам важные для Тебя (владельца сайта) страницы, но решение остается не за нами,- им виднее какую из страниц сайта будет разумнее преподнести пользователю на обозрение.

а если запретить индексацию страницы, то у поисковика уже выбора не остаётся,- только удаление из поиска

PS - хороший генератор карт сайта тута http://www.wonderwebware.com/

Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
  • Зараз на сторінці   0 користувачів

    • Ні користувачів, які переглядиють цю сторінку

×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.