Рекомендуемые сообщения

pavelp    1

Конечно глупо такое спрашивать, никто не признается что создал идеальный opecartовский robots.txt, но может кто поделится какого вида должен он быть и что лучше добавить, а чего не стоит к дефолтному правилу?

Такой вид роботс у меня на данный момент:

User-agent: *
Disallow: /index.php?route=account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/search
Disallow: /*route=account/login
Disallow: /*route=checkout/cart
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system
Disallow: /export
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Host: example.example
Clean-param: tracking

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Ребят, поделитесь, пожалуйста своим опытом по составлению robots.txt.

Еще опыта составления не имею, поэтому хотел посмотреть на ваши.

Спасибо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Zeppelin    82

что я знаю наверняка, так это нужно выкинуть упоминание админки, нечего ей там делать!
удалить эту строку Disallow: /admin

Изменено пользователем Zeppelin

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
DAN    65

что я знаю наверняка, так это нужно выкинуть упоминание админки, нечего ей там делать!

Disallow: /admin

А почему? Роботам там чего делать, если не закрыть?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Zeppelin    82

1. robot ничего не знает про структуру каталогов, если админка не указана, он за ней и не пойдет!

2. любой нехороший человек по адресу _http://seoonly.ru/robots.txt поймет, что за движок и где админка :) зачем подогревать интерес :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
DAN    65

Спасибо

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Zeppelin    82

немного поясню свое высказывание.

Любой робот сначала проверяет два файла robots.txt и sitemap.xml и лишь потом начинает шариться по всему сайту. Из этих файлов он берет список страниц сайта и инструкции, куда ему ходить и что делать :) . Если в структуре сайта нигде (ни на одной странице и в файлах robots.txt, sitemap.xml) нет прямой ссылки на админку (типа mysite.com/adminka/) то робот пройдет мимо админки. Поэтому запись

Disallow: /admin
не имеет смысла, мы пытаемся запретить доступ туда, куда робот и идти-то не собирался :) , а вот злоумышленникам подсказку даем. Вот как то так ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
pavelp    1

Спасибо за совет по роботу

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
zubovd    135

https://support.google.com/webmasters/bin/answer.py?hl=ru&answer=1235687 в данном случае безполезная строка

Disallow: /*&product_id= еще можно добавить

ага, и сказать Гугл, Яндекс - до свидания:)

- этим правилом закроете доступ ко всем товарам.. :ugeek:

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
usbstar    0

Люди, прошу помощи!

Запустил сайт, http://usbstar.ru Яндекс не хочет индексировать его.

Все тайтлы и т.д. прописаны, в индексе только главная страница

 

robots.txt:

 

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=

User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Clean-param: tracking

 

в чем проблема?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Merovinger    0

немного поясню свое высказывание.

Любой робот сначала проверяет два файла robots.txt и sitemap.xml и лишь потом начинает шариться по всему сайту. Из этих файлов он берет список страниц сайта и инструкции, куда ему ходить и что делать smile.png . Если в структуре сайта нигде (ни на одной странице и в файлах robots.txt, sitemap.xml) нет прямой ссылки на админку (типа mysite.com/adminka/) то робот пройдет мимо админки. Поэтому запись

Disallow: /admin
не имеет смысла, мы пытаемся запретить доступ туда, куда робот и идти-то не собирался smile.png , а вот злоумышленникам подсказку даем. Вот как то так wink.png

 

 

Такое представление о том, куда ходят роботы является несколько устаревшим. Вебмастер, как "продвинутый" сеошник, имеет в браузере яндекс-бар. Бар собирает урлы просмотренных страниц, поэтому об "/admin" будет знать и пойдёт туда, если не запретить доступ. А от злоумышленников наверное не так защищаются. Можно подумать, что злоумышленники накие тупые, что даже не подозревают о расположении в корне папки "админ" и никогда в жизни не попытаются попробовать там пошарить.

 

Уверяю, яндекс именно таков. Проиндексить сайт с уникальным контентом, с авторскими статьями (а не рерайтом) - это ему религия не позволяет, а как чью-нибудь базу спалить, так запросто.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
mixas    1

Конечно глупо такое спрашивать, никто не признается что создал идеальный opecartовский robots.txt, но может кто поделится какого вида должен он быть и что лучше добавить, а чего не стоит к дефолтному правилу?

Такой вид роботс у меня на данный момент....

 

Как по мне так все нормально. Разве что добавить ссылку на карту сайта для яндекса и google в самый конец.

Sitemap: http://site.ru/sitemap.xml

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
vayboy    6

Ссылку на аминку  однозначно удалять из роботс

Можно кинуть фейковый адрес админки с диссалов.

чисто школьников потроллить.

 

 

Индексация админки(страницы со запросом учётки), если вы на неё не оставляли ссылок нигде возможна.

Ибо опять же школьник какой-нибудь где-нибудь может протравить ссылку.

 

В мета админки добавляем:

<meta name="robots" content="noindex" />

(админ-вьев-темпл-коммон-хеадер.тпл)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
gudini666    1

Доброго дня.

Помогите пожалуйста с robots.txt

После посещения роботом сайта http://www.nrjstyle.ru/  яндекс выдает:

Документ запрещен в файле robots.txt mbKiuEaRpNCz4ayHvNRxEZb3Qow.png 3127      Документ является неканоническим mbKiuEaRpNCz4ayHvNRxEZb3Qow.png 120 

Что в robots.txt настроено не так?

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
ievgeniyp    1

Ссылку на аминку  однозначно удалять из роботс

Можно кинуть фейковый адрес админки с диссалов.

чисто школьников потроллить.

 

 

Индексация админки(страницы со запросом учётки), если вы на неё не оставляли ссылок нигде возможна.

 

это можно и запросто

 

 

Ибо опять же школьник какой-нибудь где-нибудь может протравить ссылку.

 

В мета админки добавляем:

<meta name="robots" content="noindex" />

(админ-вьев-темпл-коммон-хеадер.тпл)

 

а это полная туфта, для этого можно вполне успешно использовать тот же самый незаменимый файлик .htaccess и будет счастье!

Изменено пользователем ievgeniyp

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Helloween    6

1. админку закрывать необходимо, так как (как уже здесь упоминалось) браузеры собирают адреса, по которым ходят пользователи. И в индекс они легко могут попасть.

2. автор, у вас НЕ ЧПУ адреса, ваши адреса имеют такой вид: /index.php?route=product/product&path=172_133_134&product_id=15202

Мое предположение может быть не верным, но подозреваю, что строка Disallow: /index.php?route=product/product*&manufacturer_id=

закрывает все адреса товаров.

Сходства находите в выделенном?

3. Для защиты папки админ от школьников есть смысл создать в самой папке отдельный .htaccess и прописать в нем запрет на просмотр файлов для посторонних.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
vladimir306    0

Скажите а нужно ли каталог запрещать в файле robot.txt ?

Disallow: /catalog

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Timber    3

После

 

Disallow: /catalog/

 

Стоит добавить

 

Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/ВАША_ТЕМА/image/
Allow: /catalog/view/theme/ВАША_ТЕМА/stylesheet/
 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

А почему бы не добавить 

User-agent: *

Allow: /

в самом начале файла. А затем уже всё остальное. Как робот поймёт, что ему можно, если нет ни одной команды "разрешить"?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
forbs    0

Если стоит везде Disallow , получается, что в поисках яндекса и гугла не будет сайта, так или нет?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
DeExp    0

Подскажите, пожалуйста. Гугл при индексации заблокировал 17 страниц со связанным содержимым.

 
/catalog/view/theme/default/stylesheet/tooltip/tooltipster-punk.css
17
/catalog/view/theme/default/stylesheet/awesome/font-awesome.min.css
17
/catalog/view/theme/moneymaker/bootstrap/css/bootstrap.min.css
17
/catalog/view/theme/moneymaker/stylesheet/mmr_themes_responsive/moneymaker-custom-theme-light.css
17
/catalog/view/javascript/blog/rating/jquery.rating.css
12
/system/cache/seocmspro.css
12
/catalog/view/javascript/blog/blog.bbimage.js
10
/catalog/view/javascript/jquery/jquery.total-storage.min.js
10
/catalog/view/javascript/jquery/ui/themes/ui-lightness/jquery-ui-1.8.16.custom.css
8
10 
/catalog/view/javascript/jquery/colorbox-master/colorbox.css

 

и так далее. При проверке robots.txt Гугл красным подсвечивал "Disallow: /catalog ". Я добавил в  robots.txt:

Disallow: /catalog

Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/moneymaker/image/
Allow: /catalog/view/theme/moneymaker/stylesheet/
Allow: /catalog/view/theme/default/stylesheet/
Allow: /catalog/view/theme/moneymaker/bootstrap/
 
Теперь после  Гугл продолжает блокировать все те же 17 страниц, только теперь разрешенные строки подсвечивает зеленым.
 Что я не так сделал? И что мне подправить в robots.txt чтобы избавится от заблокированных страниц?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
bondur    1

 

Подскажите, пожалуйста. Гугл при индексации заблокировал 17 страниц со связанным содержимым.

 
/catalog/view/theme/default/stylesheet/tooltip/tooltipster-punk.css
17
/catalog/view/theme/default/stylesheet/awesome/font-awesome.min.css
17
/catalog/view/theme/moneymaker/bootstrap/css/bootstrap.min.css
17
/catalog/view/theme/moneymaker/stylesheet/mmr_themes_responsive/moneymaker-custom-theme-light.css
17
/catalog/view/javascript/blog/rating/jquery.rating.css
12
/system/cache/seocmspro.css
12
/catalog/view/javascript/blog/blog.bbimage.js
10
/catalog/view/javascript/jquery/jquery.total-storage.min.js
10
/catalog/view/javascript/jquery/ui/themes/ui-lightness/jquery-ui-1.8.16.custom.css
8
10 
/catalog/view/javascript/jquery/colorbox-master/colorbox.css

 

и так далее. При проверке robots.txt Гугл красным подсвечивал "Disallow: /catalog ". Я добавил в  robots.txt:

Disallow: /catalog

Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/moneymaker/image/
Allow: /catalog/view/theme/moneymaker/stylesheet/
Allow: /catalog/view/theme/default/stylesheet/
Allow: /catalog/view/theme/moneymaker/bootstrap/
 
Теперь после  Гугл продолжает блокировать все те же 17 страниц, только теперь разрешенные строки подсвечивает зеленым.
 Что я не так сделал? И что мне подправить в robots.txt чтобы избавится от заблокированных страниц?

 

Похоже надо добавить расширение файлов на открытие. Сам сейчас зашел в гугл, смотрю а сайта нет в поиске. Вот и думаю как открыть доступ с описанием расширения файла или без, как у Вас.

 

http://seoprofy.ua/blog/optimizaciya-sajtov/googlebot-css-js

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
bronzalev    3

1. админку закрывать необходимо, так как (как уже здесь упоминалось) браузеры собирают адреса, по которым ходят пользователи. И в индекс они легко могут попасть.

2. автор, у вас НЕ ЧПУ адреса, ваши адреса имеют такой вид: /index.php?route=product/product&path=172_133_134&product_id=15202

Мое предположение может быть не верным, но подозреваю, что строка Disallow: /index.php?route=product/product*&manufacturer_id=

закрывает все адреса товаров.

Сходства находите в выделенном?

3. Для защиты папки админ от школьников есть смысл создать в самой папке отдельный .htaccess и прописать в нем запрет на просмотр файлов для посторонних.

Меня тоже интересует вопрос, не закрывает ли доступ к индексации товаров данная строка: Disallow: /index.php?route=product/product*&manufacturer_id=

Как пример адресной строки товара приведу: http://bronzalev.com.ua/index.php?route=product/product&path=1_16&product_id=82

После индексирования Googlе нашел 161 Страницу с заблокированными ресурсами, среди которых большая часть страниц с товарами.

Возникает очень большой соблазн удалить строку Disallow: /index.php?route=product/product*&manufacturer_id= из файла robots.txt 

Подскажите кто, что знает по этому поводу.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти


  • Последние посетители   0 пользователей онлайн

    Ни одного зарегистрированного пользователя не просматривает данную страницу