Wild Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 С яндексом, гуглом и прочими известными ботами все известно, а как определить правильное имя бота для файла robots.txt? Это может быть просто часть подстроки из самого UserAgent? К примеру спамит сайт зараза с таким UA: Цитата LCC (+http://corpora.informatik.uni-leipzig.de/crawler_faq.html) Уже больше 2000 запросов за 8 часов! Как его забанить? Надіслати Поділитися на інших сайтах More sharing options... Gann Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 (змінено) 32 минуты назад, Wild сказал: С яндексом, гуглом и прочими известными ботами все известно, а как определить правильное имя бота для файла robots.txt? Это может быть просто часть подстроки из самого UserAgent? К примеру спамит сайт зараза с таким UA: Уже больше 2000 запросов за 8 часов! Как его забанить? User-agent: LCC Disallow: / п.с. прямо по ссылке указанной вами перешёл и там нашёл uni-leipzig.de это университет какой-то... похоже студенты химичат что-то)) Змінено 22 травня 2017 користувачем Gann Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Хм... А как запретить такое? Цитата Mozilla/4.0 (compatible; MSIE 5.01; Windows 95; MSIECrawler) По логике нужно поставить Цитата User-agent: MSIECrawler Disallow: / Так? Т.е. если я правильно понял, то достаточно указать подстроку из юзерагента? Т.е. в первом случает тоже должна проканать такая запись? Цитата User-agent: corpora.informatik.uni-leipzig.de Disallow: / Надіслати Поділитися на інших сайтах More sharing options... Eldaeron Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / Вот добавьте в свой robots.txt Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 30 минут назад, Eldaeron сказал: Вот добавьте в свой robots.txt Цитата User-agent: UbiCrawler Disallow: / ... User-agent: WebReaper Disallow: / Спасибо, конечно, но списки известных ботов я могу найти и сам. Интересовал момент про ботов неизвестных науке. 16 минут назад, chukcha сказал: Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Совсем вылетело из головы, что они не все честные и могут попросту игнорировать robots.txt. По этому им пофигу что Disallow, что Crawl-delay. СПАСИБО! ))) Но для самообразования вопрос в целом остался. А как вообще можно узнать имя малоизвестного bota для robots? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Анализируя UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 25 минут назад, chukcha сказал: Анализируя UA Это понятно. Есть ли какие-либо правила, по которым это делается? Или можно взять любой кусок из UA? Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt Покупцям Оплата розширень фізичними особами Оплата розширень юридичними особами Політика повернень Розробникам Регламент розміщення розширень Регламент продажу та підтримки розширень Віртуальний обліковий запис автора Політика просування оголошень API каталогу розширень Вирішення спорів щодо авторських прав Корисна інформація Публічна оферта Політика повернень Політика конфіденційності Платіжна політика Політика передачі особистих даних Політика прозорості Останні розширення Повний пакет SEO Автор: GeekoDev SameSite Session Fix Opencart 3 Автор: web_bond SP Telegram повідомлення FREE Автор: spectre Відключити порожні категорії Автор: spectre SEO Автор тексту категорії / фільтра / блогу з датою оновлення контенту + мікророзмітка Автор: radaevich × Уже зареєстровані? Ввійти Реєстрація Ваші замовлення Назад Придбані модулі та шаблони Ваші рахунки Лист очікувань Альтернативні контакти Форум Новини ocStore Назад Офіційний сайт Демо ocStore 3.0.3.2 Демо ocStore 2.3.0.2.4 Завантажити ocStore Документація Історія версій ocStore Блоги Модулі Шаблони Назад Безкоштовні шаблони Платні шаблони Де купувати модулі? Послуги FAQ OpenCart.Pro Назад Демо Купити Порівняння × Створити... Important Information На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність. Я даю згоду
Gann Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 (змінено) 32 минуты назад, Wild сказал: С яндексом, гуглом и прочими известными ботами все известно, а как определить правильное имя бота для файла robots.txt? Это может быть просто часть подстроки из самого UserAgent? К примеру спамит сайт зараза с таким UA: Уже больше 2000 запросов за 8 часов! Как его забанить? User-agent: LCC Disallow: / п.с. прямо по ссылке указанной вами перешёл и там нашёл uni-leipzig.de это университет какой-то... похоже студенты химичат что-то)) Змінено 22 травня 2017 користувачем Gann Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Хм... А как запретить такое? Цитата Mozilla/4.0 (compatible; MSIE 5.01; Windows 95; MSIECrawler) По логике нужно поставить Цитата User-agent: MSIECrawler Disallow: / Так? Т.е. если я правильно понял, то достаточно указать подстроку из юзерагента? Т.е. в первом случает тоже должна проканать такая запись? Цитата User-agent: corpora.informatik.uni-leipzig.de Disallow: / Надіслати Поділитися на інших сайтах More sharing options... Eldaeron Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / Вот добавьте в свой robots.txt Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 30 минут назад, Eldaeron сказал: Вот добавьте в свой robots.txt Цитата User-agent: UbiCrawler Disallow: / ... User-agent: WebReaper Disallow: / Спасибо, конечно, но списки известных ботов я могу найти и сам. Интересовал момент про ботов неизвестных науке. 16 минут назад, chukcha сказал: Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Совсем вылетело из головы, что они не все честные и могут попросту игнорировать robots.txt. По этому им пофигу что Disallow, что Crawl-delay. СПАСИБО! ))) Но для самообразования вопрос в целом остался. А как вообще можно узнать имя малоизвестного bota для robots? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Анализируя UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 25 минут назад, chukcha сказал: Анализируя UA Это понятно. Есть ли какие-либо правила, по которым это делается? Или можно взять любой кусок из UA? Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt Покупцям Оплата розширень фізичними особами Оплата розширень юридичними особами Політика повернень Розробникам Регламент розміщення розширень Регламент продажу та підтримки розширень Віртуальний обліковий запис автора Політика просування оголошень API каталогу розширень Вирішення спорів щодо авторських прав Корисна інформація Публічна оферта Політика повернень Політика конфіденційності Платіжна політика Політика передачі особистих даних Політика прозорості Останні розширення Повний пакет SEO Автор: GeekoDev SameSite Session Fix Opencart 3 Автор: web_bond SP Telegram повідомлення FREE Автор: spectre Відключити порожні категорії Автор: spectre SEO Автор тексту категорії / фільтра / блогу з датою оновлення контенту + мікророзмітка Автор: radaevich × Уже зареєстровані? Ввійти Реєстрація Ваші замовлення Назад Придбані модулі та шаблони Ваші рахунки Лист очікувань Альтернативні контакти Форум Новини ocStore Назад Офіційний сайт Демо ocStore 3.0.3.2 Демо ocStore 2.3.0.2.4 Завантажити ocStore Документація Історія версій ocStore Блоги Модулі Шаблони Назад Безкоштовні шаблони Платні шаблони Де купувати модулі? Послуги FAQ OpenCart.Pro Назад Демо Купити Порівняння × Створити... Important Information На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність. Я даю згоду
Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Хм... А как запретить такое? Цитата Mozilla/4.0 (compatible; MSIE 5.01; Windows 95; MSIECrawler) По логике нужно поставить Цитата User-agent: MSIECrawler Disallow: / Так? Т.е. если я правильно понял, то достаточно указать подстроку из юзерагента? Т.е. в первом случает тоже должна проканать такая запись? Цитата User-agent: corpora.informatik.uni-leipzig.de Disallow: / Надіслати Поділитися на інших сайтах More sharing options... Eldaeron Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / Вот добавьте в свой robots.txt Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 30 минут назад, Eldaeron сказал: Вот добавьте в свой robots.txt Цитата User-agent: UbiCrawler Disallow: / ... User-agent: WebReaper Disallow: / Спасибо, конечно, но списки известных ботов я могу найти и сам. Интересовал момент про ботов неизвестных науке. 16 минут назад, chukcha сказал: Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Совсем вылетело из головы, что они не все честные и могут попросту игнорировать robots.txt. По этому им пофигу что Disallow, что Crawl-delay. СПАСИБО! ))) Но для самообразования вопрос в целом остался. А как вообще можно узнать имя малоизвестного bota для robots? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Анализируя UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 25 минут назад, chukcha сказал: Анализируя UA Это понятно. Есть ли какие-либо правила, по которым это делается? Или можно взять любой кусок из UA? Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt Покупцям Оплата розширень фізичними особами Оплата розширень юридичними особами Політика повернень Розробникам Регламент розміщення розширень Регламент продажу та підтримки розширень Віртуальний обліковий запис автора Політика просування оголошень API каталогу розширень Вирішення спорів щодо авторських прав Корисна інформація Публічна оферта Політика повернень Політика конфіденційності Платіжна політика Політика передачі особистих даних Політика прозорості Останні розширення Повний пакет SEO Автор: GeekoDev SameSite Session Fix Opencart 3 Автор: web_bond SP Telegram повідомлення FREE Автор: spectre Відключити порожні категорії Автор: spectre SEO Автор тексту категорії / фільтра / блогу з датою оновлення контенту + мікророзмітка Автор: radaevich × Уже зареєстровані? Ввійти Реєстрація Ваші замовлення Назад Придбані модулі та шаблони Ваші рахунки Лист очікувань Альтернативні контакти Форум Новини ocStore Назад Офіційний сайт Демо ocStore 3.0.3.2 Демо ocStore 2.3.0.2.4 Завантажити ocStore Документація Історія версій ocStore Блоги Модулі Шаблони Назад Безкоштовні шаблони Платні шаблони Де купувати модулі? Послуги FAQ OpenCart.Pro Назад Демо Купити Порівняння × Створити... Important Information На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність. Я даю згоду
Eldaeron Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / Вот добавьте в свой robots.txt Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 30 минут назад, Eldaeron сказал: Вот добавьте в свой robots.txt Цитата User-agent: UbiCrawler Disallow: / ... User-agent: WebReaper Disallow: / Спасибо, конечно, но списки известных ботов я могу найти и сам. Интересовал момент про ботов неизвестных науке. 16 минут назад, chukcha сказал: Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Совсем вылетело из головы, что они не все честные и могут попросту игнорировать robots.txt. По этому им пофигу что Disallow, что Crawl-delay. СПАСИБО! ))) Но для самообразования вопрос в целом остался. А как вообще можно узнать имя малоизвестного bota для robots? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Анализируя UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 25 минут назад, chukcha сказал: Анализируя UA Это понятно. Есть ли какие-либо правила, по которым это делается? Или можно взять любой кусок из UA? Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt Покупцям Оплата розширень фізичними особами Оплата розширень юридичними особами Політика повернень Розробникам Регламент розміщення розширень Регламент продажу та підтримки розширень Віртуальний обліковий запис автора Політика просування оголошень API каталогу розширень Вирішення спорів щодо авторських прав Корисна інформація Публічна оферта Політика повернень Політика конфіденційності Платіжна політика Політика передачі особистих даних Політика прозорості Останні розширення Повний пакет SEO Автор: GeekoDev SameSite Session Fix Opencart 3 Автор: web_bond SP Telegram повідомлення FREE Автор: spectre Відключити порожні категорії Автор: spectre SEO Автор тексту категорії / фільтра / блогу з датою оновлення контенту + мікророзмітка Автор: radaevich × Уже зареєстровані? Ввійти Реєстрація Ваші замовлення Назад Придбані модулі та шаблони Ваші рахунки Лист очікувань Альтернативні контакти Форум Новини ocStore Назад Офіційний сайт Демо ocStore 3.0.3.2 Демо ocStore 2.3.0.2.4 Завантажити ocStore Документація Історія версій ocStore Блоги Модулі Шаблони Назад Безкоштовні шаблони Платні шаблони Де купувати модулі? Послуги FAQ OpenCart.Pro Назад Демо Купити Порівняння × Створити... Important Information На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність. Я даю згоду
chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 30 минут назад, Eldaeron сказал: Вот добавьте в свой robots.txt Цитата User-agent: UbiCrawler Disallow: / ... User-agent: WebReaper Disallow: / Спасибо, конечно, но списки известных ботов я могу найти и сам. Интересовал момент про ботов неизвестных науке. 16 минут назад, chukcha сказал: Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Совсем вылетело из головы, что они не все честные и могут попросту игнорировать robots.txt. По этому им пофигу что Disallow, что Crawl-delay. СПАСИБО! ))) Но для самообразования вопрос в целом остался. А как вообще можно узнать имя малоизвестного bota для robots? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Анализируя UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 25 минут назад, chukcha сказал: Анализируя UA Это понятно. Есть ли какие-либо правила, по которым это делается? Или можно взять любой кусок из UA? Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt Покупцям Оплата розширень фізичними особами Оплата розширень юридичними особами Політика повернень Розробникам Регламент розміщення розширень Регламент продажу та підтримки розширень Віртуальний обліковий запис автора Політика просування оголошень API каталогу розширень Вирішення спорів щодо авторських прав Корисна інформація Публічна оферта Політика повернень Політика конфіденційності Платіжна політика Політика передачі особистих даних Політика прозорості Останні розширення Повний пакет SEO Автор: GeekoDev SameSite Session Fix Opencart 3 Автор: web_bond SP Telegram повідомлення FREE Автор: spectre Відключити порожні категорії Автор: spectre SEO Автор тексту категорії / фільтра / блогу з датою оновлення контенту + мікророзмітка Автор: radaevich × Уже зареєстровані? Ввійти Реєстрація Ваші замовлення Назад Придбані модулі та шаблони Ваші рахунки Лист очікувань Альтернативні контакти Форум Новини ocStore Назад Офіційний сайт Демо ocStore 3.0.3.2 Демо ocStore 2.3.0.2.4 Завантажити ocStore Документація Історія версій ocStore Блоги Модулі Шаблони Назад Безкоштовні шаблони Платні шаблони Де купувати модулі? Послуги FAQ OpenCart.Pro Назад Демо Купити Порівняння × Створити... Important Information На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність. Я даю згоду
Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 30 минут назад, Eldaeron сказал: Вот добавьте в свой robots.txt Цитата User-agent: UbiCrawler Disallow: / ... User-agent: WebReaper Disallow: / Спасибо, конечно, но списки известных ботов я могу найти и сам. Интересовал момент про ботов неизвестных науке. 16 минут назад, chukcha сказал: Зачем? Робот не обязан читать роботс Если спамит - htaccess запретить по UA Совсем вылетело из головы, что они не все честные и могут попросту игнорировать robots.txt. По этому им пофигу что Disallow, что Crawl-delay. СПАСИБО! ))) Но для самообразования вопрос в целом остался. А как вообще можно узнать имя малоизвестного bota для robots? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Анализируя UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 25 минут назад, chukcha сказал: Анализируя UA Это понятно. Есть ли какие-либо правила, по которым это делается? Или можно взять любой кусок из UA? Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt Покупцям Оплата розширень фізичними особами Оплата розширень юридичними особами Політика повернень Розробникам Регламент розміщення розширень Регламент продажу та підтримки розширень Віртуальний обліковий запис автора Політика просування оголошень API каталогу розширень Вирішення спорів щодо авторських прав Корисна інформація Публічна оферта Політика повернень Політика конфіденційності Платіжна політика Політика передачі особистих даних Політика прозорості Останні розширення Повний пакет SEO Автор: GeekoDev SameSite Session Fix Opencart 3 Автор: web_bond SP Telegram повідомлення FREE Автор: spectre Відключити порожні категорії Автор: spectre SEO Автор тексту категорії / фільтра / блогу з датою оновлення контенту + мікророзмітка Автор: radaevich × Уже зареєстровані? Ввійти Реєстрація Ваші замовлення Назад Придбані модулі та шаблони Ваші рахунки Лист очікувань Альтернативні контакти Форум Новини ocStore Назад Офіційний сайт Демо ocStore 3.0.3.2 Демо ocStore 2.3.0.2.4 Завантажити ocStore Документація Історія версій ocStore Блоги Модулі Шаблони Назад Безкоштовні шаблони Платні шаблони Де купувати модулі? Послуги FAQ OpenCart.Pro Назад Демо Купити Порівняння × Створити... Important Information На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність. Я даю згоду
chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 Анализируя UA Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 25 минут назад, chukcha сказал: Анализируя UA Это понятно. Есть ли какие-либо правила, по которым это делается? Или можно взять любой кусок из UA? Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt Покупцям Оплата розширень фізичними особами Оплата розширень юридичними особами Політика повернень Розробникам Регламент розміщення розширень Регламент продажу та підтримки розширень Віртуальний обліковий запис автора Політика просування оголошень API каталогу розширень Вирішення спорів щодо авторських прав Корисна інформація Публічна оферта Політика повернень Політика конфіденційності Платіжна політика Політика передачі особистих даних Політика прозорості Останні розширення Повний пакет SEO Автор: GeekoDev SameSite Session Fix Opencart 3 Автор: web_bond SP Telegram повідомлення FREE Автор: spectre Відключити порожні категорії Автор: spectre SEO Автор тексту категорії / фільтра / блогу з датою оновлення контенту + мікророзмітка Автор: radaevich × Уже зареєстровані? Ввійти Реєстрація Ваші замовлення Назад Придбані модулі та шаблони Ваші рахунки Лист очікувань Альтернативні контакти Форум Новини ocStore Назад Офіційний сайт Демо ocStore 3.0.3.2 Демо ocStore 2.3.0.2.4 Завантажити ocStore Документація Історія версій ocStore Блоги Модулі Шаблони Назад Безкоштовні шаблони Платні шаблони Де купувати модулі? Послуги FAQ OpenCart.Pro Назад Демо Купити Порівняння × Створити... Important Information На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність. Я даю згоду
Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 25 минут назад, chukcha сказал: Анализируя UA Это понятно. Есть ли какие-либо правила, по которым это делается? Или можно взять любой кусок из UA? Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt Покупцям Оплата розширень фізичними особами Оплата розширень юридичними особами Політика повернень Розробникам Регламент розміщення розширень Регламент продажу та підтримки розширень Віртуальний обліковий запис автора Політика просування оголошень API каталогу розширень Вирішення спорів щодо авторських прав Корисна інформація Публічна оферта Політика повернень Політика конфіденційності Платіжна політика Політика передачі особистих даних Політика прозорості Останні розширення Повний пакет SEO Автор: GeekoDev SameSite Session Fix Opencart 3 Автор: web_bond SP Telegram повідомлення FREE Автор: spectre Відключити порожні категорії Автор: spectre SEO Автор тексту категорії / фільтра / блогу з датою оновлення контенту + мікророзмітка Автор: radaevich
Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Чтобы мой вопрос был более понятен, приведу пример... Есть юзерагент от некого бота. Предположим, известно что читает robots.txt и подчиняется его правилам. Мне надо поставить задержку Crawl-delay, чтобы слишком не ДДОСил. Какую часть из UA мне надо выбрать, чтобы прописать ее в robots.txt? Надіслати Поділитися на інших сайтах More sharing options... chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку Последние темы Последние дополнения Последние новости Вся активність Головна Реклама і просування SEO-питання (оптимізація та просування магазину) Определить правильное имя бота для robots.txt
chukcha Опубліковано: 22 травня 2017 Share Опубліковано: 22 травня 2017 1. Выясните понимает ли он Crawl-delay 2. Вбейте в поиск его UA, найдите его страницу в сети, почитайте какие правила он знает Надіслати Поділитися на інших сайтах More sharing options... Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0 Перейти до списку тем Зараз на сторінці 0 користувачів Ні користувачів, які переглядиють цю сторінку
Wild Опубліковано: 22 травня 2017 Автор Share Опубліковано: 22 травня 2017 Ясно... Т.е. каких-то правил нет, но и писать что-попало не прокатит. Исключительно гуглить на предмет правильного имени для роботс. Спасибо. Надіслати Поділитися на інших сайтах More sharing options... Створіть аккаунт або увійдіть для коментування Ви повинні бути користувачем, щоб залишити коментар Створити обліковий запис Зареєструйтеся для отримання облікового запису. Це просто! Зареєструвати аккаунт Вхід Уже зареєстровані? Увійдіть тут. Вхід зараз Share More sharing options... Передплатники 0
Recommended Posts