Перейти к содержанию

Рекомендуемые сообщения

С яндексом, гуглом и прочими известными ботами все известно, а как определить правильное имя бота для файла robots.txt?
Это может быть просто часть подстроки из самого UserAgent?
К примеру спамит сайт зараза с таким UA:

Цитата

LCC (+http://corpora.informatik.uni-leipzig.de/crawler_faq.html)

Уже больше 2000 запросов за 8 часов!
Как его забанить?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
32 минуты назад, Wild сказал:

С яндексом, гуглом и прочими известными ботами все известно, а как определить правильное имя бота для файла robots.txt?
Это может быть просто часть подстроки из самого UserAgent?
К примеру спамит сайт зараза с таким UA:

Уже больше 2000 запросов за 8 часов!
Как его забанить?

User-agent: LCC
Disallow: /

 

п.с. прямо по ссылке указанной вами перешёл и там нашёл:D

 

uni-leipzig.de это университет какой-то... похоже студенты химичат что-то))

Изменено пользователем Gann

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Хм...
А как запретить такое?

Цитата

Mozilla/4.0 (compatible; MSIE 5.01; Windows 95; MSIECrawler)


По логике нужно поставить

Цитата

User-agent: MSIECrawler
Disallow: /

Так?

Т.е. если я правильно понял, то достаточно указать подстроку из юзерагента?
Т.е. в первом случает тоже должна проканать такая запись?

Цитата

User-agent: corpora.informatik.uni-leipzig.de
Disallow: /

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: wget
Disallow: /
User-agent: grub-client
Disallow: /
User-agent: k2spider
Disallow: /
User-agent: NPBot
Disallow: /
User-agent: WebReaper
Disallow: /

Вот добавьте в свой robots.txt

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Зачем?

Робот не обязан читать роботс

 

Если спамит - htaccess запретить по UA

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

 

30 минут назад, Eldaeron сказал:

Вот добавьте в свой robots.txt
Цитата

User-agent: UbiCrawler Disallow: /
...
User-agent: WebReaper Disallow: /

 

Спасибо, конечно, но списки известных ботов я могу найти и сам.
Интересовал момент про ботов неизвестных науке.

 

16 минут назад, chukcha сказал:

Зачем?

Робот не обязан читать роботс

Если спамит - htaccess запретить по UA

 

Совсем вылетело из головы, что они не все честные и могут попросту игнорировать robots.txt.
По этому им пофигу что Disallow, что Crawl-delay.


СПАСИБО! )))

Но для самообразования вопрос в целом остался.

А как вообще можно узнать имя малоизвестного bota для robots?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Анализируя UA

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
25 минут назад, chukcha сказал:

Анализируя UA


Это понятно.
Есть ли какие-либо правила, по которым это делается?
Или можно взять любой кусок из UA?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Чтобы мой вопрос был более понятен, приведу пример...
Есть юзерагент от некого бота.
Предположим, известно что читает robots.txt и подчиняется его правилам.
Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил.
Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1. Выясните понимает ли он  Crawl-delay

2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает

 

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Ясно...
Т.е. каких-то правил нет, но и писать что-попало не прокатит.
Исключительно гуглить на предмет правильного имени для роботс.
Спасибо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти

  • Последние посетители   0 пользователей онлайн

    Ни одного зарегистрированного пользователя не просматривает данную страницу

×

Важная информация

На нашем сайте используются файлы cookie и происходит обработка некоторых персональных данных пользователей, чтобы улучшить пользовательский интерфейс. Чтобы узнать для чего и какие персональные данные мы обрабатываем перейдите по ссылке. Если Вы нажмете «Я даю согласие», это означает, что Вы понимаете и принимаете все условия, указанные в этом Уведомлении о Конфиденциальности.