robots.txt

Wok · 27 грудня 2011

Чтобы склеились страницы с www и без достаточно в роботсе прописать директиву Host

Ну и еще через панель вебмастера потом можно будет явно указать какие страницы выдавать в поиске - с ввв или без

Yesvik · 27 грудня 2011

Чтобы склеились страницы с www и без достаточно в роботсе прописать директиву Host

Ну и еще через панель вебмастера потом можно будет явно указать какие страницы выдавать в поиске - с ввв или без

Всё верно, но

Примечание. После определения основного домена рекомендуем включить переадресацию 301 для перенаправления трафика с неосновного домена, чтобы другие поисковые системы и посетители знали, какую версию вы предпочитаете.

Источник: Основной домен (в формате с префиксом www или без него)

Wok · 27 грудня 2011

Всё верно, но

Источник: Основной домен (в формате с префиксом www или без него)

Ну да, вообще этот редирект нужен. Но если человек не шарит совсем, то достаточно будет только хост прописать..

Плюс же еще нужен редирект с site.ru/index.php на site.ru и с site.ru/ на site.ru

nikitych · 14 січня 2012

народ, рискую получить приз за тупость, но все же ...

зачем вы все закрываете доступ роботам таким образом?

Disallow: /*?manufacturer

Disallow: /*?sort

Disallow: /*?order

Disallow: /*?keyword

Disallow: /admin/

Disallow: /download/

Disallow: /catalog/

Disallow: /system/

Disallow: /cgi-bin

что плохого если он проиндексирует эти папки?

snastik · 14 січня 2012

народ, рискую получить приз за тупость, но все же ...

зачем вы все закрываете доступ роботам таким образом?

что плохого если он проиндексирует эти папки?

часть этих страниц дубли а часть бесполезны для ПС прочитайте рекомендацию любого ПС по роботс и сами все поймете ну а если в двух словах то главная рекомендация это давайте нам только полезные страницы

nikitych · 14 січня 2012

понял, спасибо.

а это стандартный набор папок для opencart?

я почему спрашиваю ... у меня на версии 1.5.1.3 и есть только:

admin

catalog

cgi-bin

download

image

system

откуда могут взяться остальные папки?

или это страницы которые создает сам магазин?

snastik · 14 січня 2012

страницы такие как пагинация поиск сортировки всякие по имени цене и тд и тп

nikitych · 14 січня 2012

ясненько ... и еще вопрос зачем все продублировано в отдельно разделе для Яндекса?

snastik · 14 січня 2012

потому что Яндекс не такой как все :-) вообще есть директива хост которую понимает только яндекс и как по мне то можно писать только * и яндекс не выделять отдельно а просто хост писать в самом низу но так уж в рунете завелось что яндексу уделяют слишком много внимания

Yesvik · 14 січня 2012

ясненько ... и еще вопрос зачем все продублировано в отдельно разделе для Яндекса?

Как правило все рускоязычные сайты ориентированы на продвижение в Яндексе.

Существуют директивы которые понимает только Яндекс. Эти директивы лучше записать в персональном разделе для Яндекса что-бы не нарваться на неадекватную реакцию других ПС.

Каждая ПС в первую очередь ищет свой раздел и если персональный раздел не найден - использует общий раздел *

Если ПС находит свой раздел - директивы из общего раздела игнорируются...

Так как для Яндекса почти всегда указывают специфические директивы, приходится создавать раздел для Яндекса в котором записываются все нужные директивы, независимо от того есть они в общем разделе или нет.

Wok · 14 січня 2012

Если ПС находит свой раздел - директивы из общего раздела игнорируются...

уверен? пруф?

Yesvik · 15 січня 2012

уверен? пруф?

Не готов спорить по поводу всех ПС... но Яндекс и Google - игнорируют.

В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются.

Источник: Использование robots.txt

Каждый раздел файла robots.txt обрабатывается отдельно; содержание предыдущих разделов не учитывается. Рассмотрим пример.

User-agent: *

Disallow: /katalog1/

User-Agent: Googlebot

Disallow: /katalog2/

В этом примере для поискового робота Googlebot будут запрещены только URL-адреса, включающие /katalog2/.

Источник: Создать файл robots.txt вручную

По поводу остальных ПС рассуждаю следующим образом:

В Robots Exclusion Protocol всё что явно не запрещено считается разрешенным и в robots.txt делаются записи описывающие только то что запрещено. Понятия Разрешено (Allow) - нет и используется не запрещающая запись Disallow: без указания что именно запрещено. И вообще этот протокол описывает только две директивы: User-agent и Disallow.

Когда надо разрешить доступ только определённому роботу - делаются записи: запрещающая доступ всем, и запись для определённого робота не указывающая что именно запрещено.

User-agent: *
Disallow: /

User-agent: CoolBot
Disallow:

Если-бы общие записи (User-agent: *) не игнорировались - приведённый пример не работал бы и выборочно дать доступ было-бы невозможно.

Eternity · 26 січня 2012

Ребята, до этого момента не заморачивалась особо с сео и прочим, но вот забила в поиск один товар и то, что выдал гугл очень смутило меня. Вот пример(первые шесть ссылок на мой магазин):

А это яндекс

Я полный чайник в сео, но так понимаю, что это дубли контента, и чтобы их избежать, нужно сделать правильно роботс. Он у меня стандартный:

User-agent: *
Disallow: /*route=account/login
Disallow: /*route=checkout/cart
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system

Пожалуйста, подскажите, что надо прописать здесь, чтобы исчезли эти дубли? Если что, то я ориентируюсь на гугл, яндекс мне без разницы.

Буду очень признательна :rolleyes:

Yesvik · 27 січня 2012

Первая ссылка выдана абсолютно правильно

Вторая ссылка имеет право на существование, но лучше закрыть страницы с постраничной навигацией

Disallow: /*?page=
Disallow: /*&page=

Третья ссылка образовалась из за наличия метки в увлажняющей сыворотке, в двух других сыворотках метки весьма странные... рекомендовал бы вообще закрыть страницу поиска

Disallow: /*route=product/search

Четвертая ссылка - закрывается так

Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=

Пятая ссылка - закрывается так

Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /*?limit=
Disallow: /*&limit=

Шестая ссылка нормальная, но всё же лучше прикрутить дополнение для устранения дублей

Кроме этого у тебя наблюдаются проблемы с многобайтными кодировками (точнее с функциями которые не умеют с ними работать)

И разберись со скриптами jquery ui - на страницах по 4 ошибки 404 Not Found

Eternity · 27 січня 2012

Огромное спасибо вам за такой обстоятельный ответ! :rolleyes: Вот сколько косяков сразу нашлось, буду исправлять)))

rock · 26 лютого 2012

Помогите настроить правильно robots файл, а то я в этом деле новичок.

Вот что у меня сейчас:

User-agent: *
Disallow: /*route=account/login
Disallow: /*route=checkout/cart
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system

SEO на сайте включено.

Нужно для Google.

Заранее благодарен.

snastik · 26 лютого 2012

Помогите настроить правильно robots файл, а то я в этом деле новичок.

будет гораздо проще это сделать если Вы укажите свою версию да и ссылка на сайт не помешала бы

rock · 27 лютого 2012

будет гораздо проще это сделать если Вы укажите свою версию да и ссылка на сайт не помешала бы

Версия 1.5.1

snastik · 27 лютого 2012

Версия 1.5.1

а куда у Вас делся стандартный robots из SVN ? там для 1.5 все закрыто максимально разве что фильтры надо закрыть если конечно они у Вас есть

rock · 27 лютого 2012

а куда у Вас делся стандартный robots из SVN ? там для 1.5 все закрыто максимально разве что фильтры надо закрыть если конечно они у Вас есть

snastik, я конечно извеняюсь, но я не знаю что такое SVN...

Вот все что содержит мой файл robots...

У меня сайт стоит два месяца, и по статистеке Awstats, среднее Количество визитов составляет 8 человек в день, мне кажется это очень мало.

Я не силен в этом, поэтому прошу помочь настроить правильно этот файл.

Спасибо.

robots.txt

snastik · 27 лютого 2012

http://www.assembla.com/code/ocstoreru/subversion/nodes/trunk/robots.txt

rock · 28 лютого 2012

http://www.assembla....runk/robots.txt

Спасибо большое, я так понял, если мне нужно только для Гугла, то мне скопировать вот это?

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=

Нужно-ли добавлять карту сайта?

Вот так будет правильно: http:// Мой сайт/index.php?route=information/sitemap

snastik · 28 лютого 2012

можете добавить можете не добавлять и скормить ее в вебмастере

zakonnik321 · 28 лютого 2012

Здравствуйте.

я начинающий в плане продвижения, не судите строго =)

в роботс прописано следующее

User-agent: *
Disallow: /*route=account/login
Disallow: /*route=checkout/cart
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system

sitemap имею такой

http://sexmann.ru/sitemap.xml

Недавно гугл проиндексировал мой сайт, предварительно я настроил что бы индексация была по сайтмапу.

в итоге из 52 страницы по сайтмапу проиндексировал гугл только 2 и выдал ошибки по странице

http://sexmann.ru/index.php?route=account/history

Что нужно прописать в robots.txt что бы индексация прошла нормально? изходя из моего ныне существующего файлика robots.txt в будущем планирую провести индексацию на я.ру

Буду благодарен любой инфе.

PS! ЧПУ не использую

rock · 29 лютого 2012

Вот что пишет Инструменты для веб-мастеров:

Обнаружены серьезные ошибки, связанные с состоянием сайта.

Робот Google
Разрешено
Распознается в качестве каталога; у некоторых файлов могут быть другие ограничения

Это серьёзно, или можно забить?

Вхід

robots.txt

Recommended Posts

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Надіслати

Поділитися на інших сайтах

Створіть аккаунт або увійдіть для коментування

Створити обліковий запис

Вхід

Зараз на сторінці 0 користувачів

Покупцям

Розробникам

Корисна інформація

Останні розширення

Important Information