Jump to content

Recommended Posts

Конечно глупо такое спрашивать, никто не признается что создал идеальный opecartовский robots.txt, но может кто поделится какого вида должен он быть и что лучше добавить, а чего не стоит к дефолтному правилу?

Такой вид роботс у меня на данный момент:

User-agent: *
Disallow: /index.php?route=account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/search
Disallow: /*route=account/login
Disallow: /*route=checkout/cart
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system
Disallow: /export
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Host: example.example
Clean-param: tracking

Share this post


Link to post
Share on other sites

Ребят, поделитесь, пожалуйста своим опытом по составлению robots.txt.

Еще опыта составления не имею, поэтому хотел посмотреть на ваши.

Спасибо.

Share this post


Link to post
Share on other sites

что я знаю наверняка, так это нужно выкинуть упоминание админки, нечего ей там делать!
удалить эту строку Disallow: /admin

Edited by Zeppelin
  • +1 1

Share this post


Link to post
Share on other sites

что я знаю наверняка, так это нужно выкинуть упоминание админки, нечего ей там делать!

Disallow: /admin

А почему? Роботам там чего делать, если не закрыть?

Share this post


Link to post
Share on other sites

1. robot ничего не знает про структуру каталогов, если админка не указана, он за ней и не пойдет!

2. любой нехороший человек по адресу _http://seoonly.ru/robots.txt поймет, что за движок и где админка :) зачем подогревать интерес :)

Share this post


Link to post
Share on other sites

Спасибо

Share this post


Link to post
Share on other sites

немного поясню свое высказывание.

Любой робот сначала проверяет два файла robots.txt и sitemap.xml и лишь потом начинает шариться по всему сайту. Из этих файлов он берет список страниц сайта и инструкции, куда ему ходить и что делать :) . Если в структуре сайта нигде (ни на одной странице и в файлах robots.txt, sitemap.xml) нет прямой ссылки на админку (типа mysite.com/adminka/) то робот пройдет мимо админки. Поэтому запись

Disallow: /admin
не имеет смысла, мы пытаемся запретить доступ туда, куда робот и идти-то не собирался :) , а вот злоумышленникам подсказку даем. Вот как то так ;)
  • +1 1

Share this post


Link to post
Share on other sites

Спасибо за совет по роботу

Share this post


Link to post
Share on other sites

https://support.google.com/webmasters/bin/answer.py?hl=ru&answer=1235687 в данном случае безполезная строка

Disallow: /*&product_id= еще можно добавить

ага, и сказать Гугл, Яндекс - до свидания:)

- этим правилом закроете доступ ко всем товарам.. :ugeek:

Share this post


Link to post
Share on other sites

Люди, прошу помощи!

Запустил сайт, http://usbstar.ru Яндекс не хочет индексировать его.

Все тайтлы и т.д. прописаны, в индексе только главная страница

 

robots.txt:

 

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=

User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Clean-param: tracking

 

в чем проблема?

Share this post


Link to post
Share on other sites

немного поясню свое высказывание.

Любой робот сначала проверяет два файла robots.txt и sitemap.xml и лишь потом начинает шариться по всему сайту. Из этих файлов он берет список страниц сайта и инструкции, куда ему ходить и что делать smile.png . Если в структуре сайта нигде (ни на одной странице и в файлах robots.txt, sitemap.xml) нет прямой ссылки на админку (типа mysite.com/adminka/) то робот пройдет мимо админки. Поэтому запись

Disallow: /admin
не имеет смысла, мы пытаемся запретить доступ туда, куда робот и идти-то не собирался smile.png , а вот злоумышленникам подсказку даем. Вот как то так wink.png

 

 

Такое представление о том, куда ходят роботы является несколько устаревшим. Вебмастер, как "продвинутый" сеошник, имеет в браузере яндекс-бар. Бар собирает урлы просмотренных страниц, поэтому об "/admin" будет знать и пойдёт туда, если не запретить доступ. А от злоумышленников наверное не так защищаются. Можно подумать, что злоумышленники накие тупые, что даже не подозревают о расположении в корне папки "админ" и никогда в жизни не попытаются попробовать там пошарить.

 

Уверяю, яндекс именно таков. Проиндексить сайт с уникальным контентом, с авторскими статьями (а не рерайтом) - это ему религия не позволяет, а как чью-нибудь базу спалить, так запросто.

Share this post


Link to post
Share on other sites

Конечно глупо такое спрашивать, никто не признается что создал идеальный opecartовский robots.txt, но может кто поделится какого вида должен он быть и что лучше добавить, а чего не стоит к дефолтному правилу?

Такой вид роботс у меня на данный момент....

 

Как по мне так все нормально. Разве что добавить ссылку на карту сайта для яндекса и google в самый конец.

Sitemap: http://site.ru/sitemap.xml

Share this post


Link to post
Share on other sites

Ссылку на аминку  однозначно удалять из роботс

Можно кинуть фейковый адрес админки с диссалов.

чисто школьников потроллить.

 

 

Индексация админки(страницы со запросом учётки), если вы на неё не оставляли ссылок нигде возможна.

Ибо опять же школьник какой-нибудь где-нибудь может протравить ссылку.

 

В мета админки добавляем:

<meta name="robots" content="noindex" />

(админ-вьев-темпл-коммон-хеадер.тпл)

Share this post


Link to post
Share on other sites

Доброго дня.

Помогите пожалуйста с robots.txt

После посещения роботом сайта http://www.nrjstyle.ru/  яндекс выдает:

Документ запрещен в файле robots.txt mbKiuEaRpNCz4ayHvNRxEZb3Qow.png 3127      Документ является неканоническим mbKiuEaRpNCz4ayHvNRxEZb3Qow.png 120 

Что в robots.txt настроено не так?

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category

Share this post


Link to post
Share on other sites

Ссылку на аминку  однозначно удалять из роботс

Можно кинуть фейковый адрес админки с диссалов.

чисто школьников потроллить.

 

 

Индексация админки(страницы со запросом учётки), если вы на неё не оставляли ссылок нигде возможна.

 

это можно и запросто

 

 

Ибо опять же школьник какой-нибудь где-нибудь может протравить ссылку.

 

В мета админки добавляем:

<meta name="robots" content="noindex" />

(админ-вьев-темпл-коммон-хеадер.тпл)

 

а это полная туфта, для этого можно вполне успешно использовать тот же самый незаменимый файлик .htaccess и будет счастье!

Edited by ievgeniyp

Share this post


Link to post
Share on other sites

1. админку закрывать необходимо, так как (как уже здесь упоминалось) браузеры собирают адреса, по которым ходят пользователи. И в индекс они легко могут попасть.

2. автор, у вас НЕ ЧПУ адреса, ваши адреса имеют такой вид: /index.php?route=product/product&path=172_133_134&product_id=15202

Мое предположение может быть не верным, но подозреваю, что строка Disallow: /index.php?route=product/product*&manufacturer_id=

закрывает все адреса товаров.

Сходства находите в выделенном?

3. Для защиты папки админ от школьников есть смысл создать в самой папке отдельный .htaccess и прописать в нем запрет на просмотр файлов для посторонних.

Share this post


Link to post
Share on other sites

Скажите а нужно ли каталог запрещать в файле robot.txt ?

Disallow: /catalog

Share this post


Link to post
Share on other sites

После

 

Disallow: /catalog/

 

Стоит добавить

 

Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/ВАША_ТЕМА/image/
Allow: /catalog/view/theme/ВАША_ТЕМА/stylesheet/
 

  • +1 1

Share this post


Link to post
Share on other sites

А почему бы не добавить 

User-agent: *

Allow: /

в самом начале файла. А затем уже всё остальное. Как робот поймёт, что ему можно, если нет ни одной команды "разрешить"?

Share this post


Link to post
Share on other sites

Если стоит везде Disallow , получается, что в поисках яндекса и гугла не будет сайта, так или нет?

Share this post


Link to post
Share on other sites

Подскажите, пожалуйста. Гугл при индексации заблокировал 17 страниц со связанным содержимым.

 
/catalog/view/theme/default/stylesheet/tooltip/tooltipster-punk.css
17
/catalog/view/theme/default/stylesheet/awesome/font-awesome.min.css
17
/catalog/view/theme/moneymaker/bootstrap/css/bootstrap.min.css
17
/catalog/view/theme/moneymaker/stylesheet/mmr_themes_responsive/moneymaker-custom-theme-light.css
17
/catalog/view/javascript/blog/rating/jquery.rating.css
12
/system/cache/seocmspro.css
12
/catalog/view/javascript/blog/blog.bbimage.js
10
/catalog/view/javascript/jquery/jquery.total-storage.min.js
10
/catalog/view/javascript/jquery/ui/themes/ui-lightness/jquery-ui-1.8.16.custom.css
8
10 
/catalog/view/javascript/jquery/colorbox-master/colorbox.css

 

и так далее. При проверке robots.txt Гугл красным подсвечивал "Disallow: /catalog ". Я добавил в  robots.txt:

Disallow: /catalog

Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/moneymaker/image/
Allow: /catalog/view/theme/moneymaker/stylesheet/
Allow: /catalog/view/theme/default/stylesheet/
Allow: /catalog/view/theme/moneymaker/bootstrap/
 
Теперь после  Гугл продолжает блокировать все те же 17 страниц, только теперь разрешенные строки подсвечивает зеленым.
 Что я не так сделал? И что мне подправить в robots.txt чтобы избавится от заблокированных страниц?

Share this post


Link to post
Share on other sites

 

Подскажите, пожалуйста. Гугл при индексации заблокировал 17 страниц со связанным содержимым.

 
/catalog/view/theme/default/stylesheet/tooltip/tooltipster-punk.css
17
/catalog/view/theme/default/stylesheet/awesome/font-awesome.min.css
17
/catalog/view/theme/moneymaker/bootstrap/css/bootstrap.min.css
17
/catalog/view/theme/moneymaker/stylesheet/mmr_themes_responsive/moneymaker-custom-theme-light.css
17
/catalog/view/javascript/blog/rating/jquery.rating.css
12
/system/cache/seocmspro.css
12
/catalog/view/javascript/blog/blog.bbimage.js
10
/catalog/view/javascript/jquery/jquery.total-storage.min.js
10
/catalog/view/javascript/jquery/ui/themes/ui-lightness/jquery-ui-1.8.16.custom.css
8
10 
/catalog/view/javascript/jquery/colorbox-master/colorbox.css

 

и так далее. При проверке robots.txt Гугл красным подсвечивал "Disallow: /catalog ". Я добавил в  robots.txt:

Disallow: /catalog

Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/moneymaker/image/
Allow: /catalog/view/theme/moneymaker/stylesheet/
Allow: /catalog/view/theme/default/stylesheet/
Allow: /catalog/view/theme/moneymaker/bootstrap/
 
Теперь после  Гугл продолжает блокировать все те же 17 страниц, только теперь разрешенные строки подсвечивает зеленым.
 Что я не так сделал? И что мне подправить в robots.txt чтобы избавится от заблокированных страниц?

 

Похоже надо добавить расширение файлов на открытие. Сам сейчас зашел в гугл, смотрю а сайта нет в поиске. Вот и думаю как открыть доступ с описанием расширения файла или без, как у Вас.

 

http://seoprofy.ua/blog/optimizaciya-sajtov/googlebot-css-js

Share this post


Link to post
Share on other sites

1. админку закрывать необходимо, так как (как уже здесь упоминалось) браузеры собирают адреса, по которым ходят пользователи. И в индекс они легко могут попасть.

2. автор, у вас НЕ ЧПУ адреса, ваши адреса имеют такой вид: /index.php?route=product/product&path=172_133_134&product_id=15202

Мое предположение может быть не верным, но подозреваю, что строка Disallow: /index.php?route=product/product*&manufacturer_id=

закрывает все адреса товаров.

Сходства находите в выделенном?

3. Для защиты папки админ от школьников есть смысл создать в самой папке отдельный .htaccess и прописать в нем запрет на просмотр файлов для посторонних.

Меня тоже интересует вопрос, не закрывает ли доступ к индексации товаров данная строка: Disallow: /index.php?route=product/product*&manufacturer_id=

Как пример адресной строки товара приведу: http://bronzalev.com.ua/index.php?route=product/product&path=1_16&product_id=82

После индексирования Googlе нашел 161 Страницу с заблокированными ресурсами, среди которых большая часть страниц с товарами.

Возникает очень большой соблазн удалить строку Disallow: /index.php?route=product/product*&manufacturer_id= из файла robots.txt 

Подскажите кто, что знает по этому поводу.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
You are posting as a guest. If you have an account, please sign in.
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.


  • Recently Browsing   0 members

    No registered users viewing this page.

×

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.