Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Определить правильное имя бота для robots.txt


Recommended Posts

С яндексом, гуглом и прочими известными ботами все известно, а как определить правильное имя бота для файла robots.txt?
Это может быть просто часть подстроки из самого UserAgent?
К примеру спамит сайт зараза с таким UA:

Цитата

LCC (+http://corpora.informatik.uni-leipzig.de/crawler_faq.html)

Уже больше 2000 запросов за 8 часов!
Как его забанить?

Надіслати
Поділитися на інших сайтах

32 минуты назад, Wild сказал:

С яндексом, гуглом и прочими известными ботами все известно, а как определить правильное имя бота для файла robots.txt?
Это может быть просто часть подстроки из самого UserAgent?
К примеру спамит сайт зараза с таким UA:

Уже больше 2000 запросов за 8 часов!
Как его забанить?

User-agent: LCC
Disallow: /

 

п.с. прямо по ссылке указанной вами перешёл и там нашёл:D

 

uni-leipzig.de это университет какой-то... похоже студенты химичат что-то))

Змінено користувачем Gann
Надіслати
Поділитися на інших сайтах

Хм...
А как запретить такое?

Цитата

Mozilla/4.0 (compatible; MSIE 5.01; Windows 95; MSIECrawler)


По логике нужно поставить

Цитата

User-agent: MSIECrawler
Disallow: /

Так?

Т.е. если я правильно понял, то достаточно указать подстроку из юзерагента?
Т.е. в первом случает тоже должна проканать такая запись?

Цитата

User-agent: corpora.informatik.uni-leipzig.de
Disallow: /

 

Надіслати
Поділитися на інших сайтах

User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: wget
Disallow: /
User-agent: grub-client
Disallow: /
User-agent: k2spider
Disallow: /
User-agent: NPBot
Disallow: /
User-agent: WebReaper
Disallow: /

Вот добавьте в свой robots.txt

Надіслати
Поділитися на інших сайтах

 

30 минут назад, Eldaeron сказал:

Вот добавьте в свой robots.txt
Цитата

User-agent: UbiCrawler Disallow: /
...
User-agent: WebReaper Disallow: /

 

Спасибо, конечно, но списки известных ботов я могу найти и сам.
Интересовал момент про ботов неизвестных науке.

 

16 минут назад, chukcha сказал:

Зачем?

Робот не обязан читать роботс

Если спамит - htaccess запретить по UA

 

Совсем вылетело из головы, что они не все честные и могут попросту игнорировать robots.txt.
По этому им пофигу что Disallow, что Crawl-delay.


СПАСИБО! )))

Но для самообразования вопрос в целом остался.

А как вообще можно узнать имя малоизвестного bota для robots?

Надіслати
Поділитися на інших сайтах

Чтобы мой вопрос был более понятен, приведу пример...
Есть юзерагент от некого бота.
Предположим, известно что читает robots.txt и подчиняется его правилам.
Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил.
Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt?

Надіслати
Поділитися на інших сайтах

1. Выясните понимает ли он  Crawl-delay

2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает

 

 

Надіслати
Поділитися на інших сайтах

Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
  • Зараз на сторінці   0 користувачів

    • Ні користувачів, які переглядиють цю сторінку

×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.