Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Какие есть методи чтобы узнать что ваш сайт парсят и как защититься от парсинга


goldentown

Recommended Posts

Здраствуйте созрел такой вопрос! Какие есть методи чтобы узнать что ваш сайт парсят и как защититься от парсинга  + авторство сайта и статей?

Змінено користувачем goldentown
Надіслати
Поділитися на інших сайтах


Смириться и не сопротивляться.

Анализировать время между запросами
Создать специальную картинку как признак браузера - загрузил - человек. Не загрузил - бот

Надіслати
Поділитися на інших сайтах

14 минут назад, chukcha сказал:

Смириться и не сопротивляться.

Анализировать время между запросами
Создать специальную картинку как признак браузера - загрузил - человек. Не загрузил - бот

Анализ между запросами смотреть на хостингу?

( Создать специальную картинку как признак браузера - загрузил - человек. Не загрузил - бот ) - конкретнее можна по этому ответу

Надіслати
Поділитися на інших сайтах


28 минут назад, chukcha сказал:

Смириться и не сопротивляться.

Анализировать время между запросами
Создать специальную картинку как признак браузера - загрузил - человек. Не загрузил - бот

 

Да нууу... на самом деле же  все просто. Та же методология что и с ддосом. Просто паттерны блокировок немного другие, и то! В случае если умные парсерщики. Но как правило даже на соксы никто не тратится и таймауты не добавляют.

Так что если вдруг один айпи за десять минут посмотрел 100 уникальных страниц, без единого повтора. Иди сюда мой маленький в баньку.

Ну а всех секретов раскрывать не буду, дабы парсерщикам неповадно было.


 

Надіслати
Поділитися на інших сайтах


бесполезное занятие, спарсить можно ВСЕ!
Content Downloader имеет все методы обхода блокировок, таймауты, протоколы, соксы и прочую хрень, даже антикаптчу.

Но да, подпортить жизнь можно, если заморочиться

Надіслати
Поділитися на інших сайтах


2 минуты назад, Yoda сказал:

Да нууу... на самом деле же  все просто.

А я не сказал, что сложно.
Элементарная защита..

 

3 минуты назад, Einshtein сказал:

бесполезное занятие, спарсить можно ВСЕ!

Можно, конечно

Надіслати
Поділитися на інших сайтах

3 минуты назад, Yoda сказал:

 

Да нууу... на самом деле же  все просто. Та же методология что и с ддосом. Просто паттерны блокировок немного другие, и то! В случае если умные парсерщики. Но как правило даже на соксы никто не тратится и таймауты не добавляют.

Так что если вдруг один айпи за десять минут посмотрел 100 уникальных страниц, без единого повтора. Иди сюда мой маленький в баньку.

Ну а всех секретов раскрывать не буду, дабы парсерщикам неповадно было.


 

Если человека уже парсили,до этого,и он имеет карту сайта,то 100 уникальных страниц и не будет. Через CD можно хранить уже спарсенные страницы в файле,и в дальнейшем. добавлять(при использовании:))

Надіслати
Поділитися на інших сайтах


4 минуты назад, Einshtein сказал:

бесполезное занятие, спарсить можно ВСЕ!
Content Downloader имеет все методы обхода блокировок, таймауты, протоколы, соксы и прочую хрень, даже антикаптчу.

Но да, подпортить жизнь можно, если заморочиться

 

Соксы закрываются на раз, достаточно простыми и практически бесплатными методами. 
Еще определенными действиями очень сильно подрезается набор потенциально возможных для использования проксей.
Для подозрительных действий капча+скрытые поля + еще кое-какой анализ действий клиента. 

ИИИИ... парсинг становиться золотым.

При чем при желании вся конструкция настраивается напиливается и вешается на систему за пару дней.

Надіслати
Поділитися на інших сайтах


6 минут назад, Ggtore сказал:

Если человека уже парсили,до этого,и он имеет карту сайта,то 100 уникальных страниц и не будет. Через CD можно хранить уже спарсенные страницы в файле,и в дальнейшем. добавлять(при использовании:))

 

При желании... Карту сайта можно отдать только ботам.. И только ботам!

Также у парсера есть признаки. Которых нет у людей. По ним очень легко определить и CD и шмеде и все что угодно.

Прокси и соксы - я уже выше написал банятся на раз два.. В итоге все сведется к 5-6 используемым айпи, которые в черный список добавить за неделю - дело техники. 

Надіслати
Поділитися на інших сайтах


45 минут назад, Yoda сказал:

Также у парсера есть признаки. Которых нет у людей. По ним очень легко определить и CD и шмеде и все что угодно.

Хрень это всё! Грамотный парсер не вычислишь! Сам работаю с CD (Content Downloader X1), через WBApp выставляются настройки и прокси-перебор под каждый шаг с временным промежутком. И даже если я все 50 потоков поставлю - не вычислишь! Максимум что заметно, если посещаемость сайта так себе, а тут вдуг попёрло, но опять же - всё по белому. Кто парсил Яндекс.Маркет знают, как быстро бан там ловится - парсил по несколько тысяч товаров (больше не заказывали) и без банов.

Надіслати
Поділитися на інших сайтах


Тоже парсил один инфо сайт не так давно, который блокирует ip из-за частых посещений. Купил приватные прокси, настроил интервалы -  всё равно забанили. Плюнул на платные проксы - собираю фришные, более менее живые, собираю данные. Да непросто, да блокируют, но данные собираются. Так что при желании можно сдёрнуть всё что угодно. @goldentown  А что у вас такого, чего нет в интернете? Не бось сами спарсили, текста уникальные налепили - и стало жалко?

Надіслати
Поділитися на інших сайтах


1 час назад, magneto2010 сказал:

Тоже парсил один инфо сайт не так давно, который блокирует ip из-за частых посещений. Купил приватные прокси, настроил интервалы -  всё равно забанили. Плюнул на платные проксы - собираю фришные, более менее живые, собираю данные. Да непросто, да блокируют, но данные собираются. Так что при желании можно сдёрнуть всё что угодно. @goldentown  А что у вас такого, чего нет в интернете? Не бось сами спарсили, текста уникальные налепили - и стало жалко?

Как тогда через IP точно можна выйти на сайт который парсит, так как парсер не закидует в ехел таблицу на сразу на свой сайт?

Надіслати
Поділитися на інших сайтах


2 часа назад, goldentown сказал:

Как тогда через IP точно можна выйти на сайт который парсит, так как парсер не закидует в ехел таблицу на сразу на свой сайт?

Мне кажется, для начала, вам бы не плохо было бы рассказать о проекте. и о том, почему именно у вас возникла такая потребность. Может уже наработки какие-то есть. Тогда ответы и помощь будет более конкретной и продуктивной. 

Надіслати
Поділитися на інших сайтах


12 часов назад, PiratRu сказал:

Хрень это всё! Грамотный парсер не вычислишь! Сам работаю с CD (Content Downloader X1), через WBApp выставляются настройки и прокси-перебор под каждый шаг с временным промежутком. И даже если я все 50 потоков поставлю - не вычислишь! Максимум что заметно, если посещаемость сайта так себе, а тут вдуг попёрло, но опять же - всё по белому. Кто парсил Яндекс.Маркет знают, как быстро бан там ловится - парсил по несколько тысяч товаров (больше не заказывали) и без банов.

Вы работаете по донорам-чертям. Которым наплевать на то что их парсят.
Ну и в принципе, парсинг  - это чертизм. 

 

12 часов назад, magneto2010 сказал:

Тоже парсил один инфо сайт не так давно, который блокирует ip из-за частых посещений. Купил приватные прокси, настроил интервалы -  всё равно забанили. Плюнул на платные проксы - собираю фришные, более менее живые, собираю данные. Да непросто, да блокируют, но данные собираются. Так что при желании можно сдёрнуть всё что угодно. @goldentown  А что у вас такого, чего нет в интернете? Не бось сами спарсили, текста уникальные налепили - и стало жалко?

Можно. Но сколько вы потратили вашего времени? Сколько стоит ваше время?
А какой толк будет от этого контента? - нулевой. Краденый контент не стоит ничего потому что он очень плохо индексируется.
Заплатите коприайтерам - это будет паритетно в деньгах потраченому времени и будет несоизмеримый эффект!

10 часов назад, goldentown сказал:

Как тогда через IP точно можна выйти на сайт который парсит, так как парсер не закидует в ехел таблицу на сразу на свой сайт?

Никак. Только общие правила и эвристика.

Надіслати
Поділитися на інших сайтах


1 час назад, Yoda сказал:

Вы работаете по донорам-чертям. Которым наплевать на то что их парсят.
Ну и в принципе, парсинг  - это чертизм. 

Ты сам понял, что за ересь накатал? Ну если Яндекс донор-черт (не Ё) - которому ооох как не наплевать - тогда ты по нулям в этом деле! Ты сначала пиво попробуй, что бы потом не рассказывать, что это квас.

 

1 час назад, Yoda сказал:

А какой толк будет от этого контента? - нулевой. Краденый контент не стоит ничего потому что он очень плохо индексируется.
Заплатите коприайтерам - это будет паритетно в деньгах потраченому времени и будет несоизмеримый эффект!

Тебе надо комп включить что ли. Какие сейчас копирайторы? Об этом можно конечно долго спорить, но если речь о товарах и ретингах - пустая трата на коперайтеров, в статьях достаточно ссылки на источник. Если речь о дипломах и научных трудах - тут уже вникать надо. Но если я хочу разместить рецепт блинчиков - нах мне тыщмильонный раз переписывать рецепт да ещё и платить копирайтеру за привкус, новый наверное. Всё проще, если статью скопипастил - неиндех, ссылку указал на источник - ещё и выше оригинала можешь вылезти, индексируется от души!

По донорам-чертям... хех... пойду чай попью.

Змінено користувачем PiratRu
Надіслати
Поділитися на інших сайтах


9 минут назад, PiratRu сказал:

Ты сам понял, что за ересь накатал? Ну если Яндекс донор-черт (не Ё) - которому ооох как не наплевать - тогда ты по нулям в этом деле! Ты сначала пиво попробуй, что бы потом не рассказывать, что это квас.

 

Тебе надо комп включить что ли. Какие сейчас копирайторы? Об этом можно конечно долго спорить, но если речь о товарах и ретингах - пустая трата на коперайтеров, в статьях достаточно ссылки на источник. Если речь о дипломах и научных трудах - тут уже вникать надо. Но если я хочу разместить рецепт блинчиков - нах мне тыщмильонный раз переписывать рецепт да ещё и платить копирайтеру за привкус, новый наверное. Всё проще, если статью скопипастил - неиндех, ссылку указал на источник - ещё и выше оригинала можешь вылезти, индексируется от души!

По донорам-чертям... хех... пойду чай попью.

 

Ну откуда же вы лезете. Неграмотные некультурные мамкины спициализды.
Тыкайте пожалуйста себе в мягкие места. Я вам не друг, не мамка. 
Для тех кто в танке...

 

Неуникальный, он же мусорный контент, а тем более ворованный, а тем более ворованный у яндекс маркета - это контент-труп. Он никогда не проиндексируется и на сотую позицию. Сказки рассказывайте вашим потенциальным клиентам.


И по факту парсинг = воровство!
Если вы со мной каким то образом не согласны, или имеет свою точку зрения изложите ее в виде жалобы спортлото!

 

Надіслати
Поділитися на інших сайтах


9 часов назад, Yoda сказал:

Ну откуда же вы лезете. Неграмотные некультурные мамкины спициализды.
Тыкайте пожалуйста себе в мягкие места. Я вам не друг, не мамка. 
Для тех кто в танке...

Спициализд из тебя в этом некудышный - это я понял! А амбиции свои царьковские при себе придержи, не с пацанами общаешься, танкист мля.

То что спарсено, можешь называть воровством или как хочешь, себе это не делаю. И то, что парсится и индексация - вообще ни как не сопостовимы! Индексируется на все 200%!!! И отвечал я по теме и по факту, а не для того, что бы со спицыализдами тут спорить.

Надіслати
Поділитися на інших сайтах


20 часов назад, Ggtore сказал:

Мне кажется, для начала, вам бы не плохо было бы рассказать о проекте. и о том, почему именно у вас возникла такая потребность. Может уже наработки какие-то есть. Тогда ответы и помощь будет более конкретной и продуктивной. 


Хотелось бы услышать Ваше мнение по следующим моментам:

— Законно ли это и есть ли возможность предъявить другому сайту что-либо за ворованные материалы? Является ли контент защищаемым, ведь он не патентуется? И если да, то по какой статье можно предъявить иск?

— Как корректно должна указываться ссылка на сайте, который стащил материалы?

— Каким образом поисковики дают авторство контенту — я так понимаю что часто своровавшие сайты оказываются авторами для поисковиков.

Как и другие сталкиваюсь с этой проблемой — растаскивают заказанный у копирайтеров контент и часто поисковик считает воров — авторами.
Но также сам иногда имею идеи пропарсить другие сайты — не на статьи, а справочники и тд. и мне интересно чем это грозит и может есть способ законного и привильного парсинга?

Поэтому и интересует мнение специалистов.

Спасибо!

Надіслати
Поділитися на інших сайтах


В 08.05.2018 в 13:13, goldentown сказал:


Хотелось бы услышать ...

1) Это не уголовное преступление. Может, кроме совершенно диких ситуаций, когда контент действительно запатентован согласно установленной процедуре. Самое распространённое и частое наказание - исключение из индекса гугл.

2) Корректно, это БЕЗ ноуиндекс и ноуфолоу. Но, в любом случае, это добрая воля вебмастера. Заставить нельзя. Если будет абуза, то на ссылку один пень, скорей всего, забъют (ссылка не оправдывает копипаст, если сайт-донор против такого копипаста).

3) Никаким. Похоже, поисковикам пофик на авторства. ПСы не хотят этим заниматься. Им важно качество сайта, а не справедливость по отношению к первоисточнику и автору текстов.

4) Те, кто украл ваш контент ранжируются выше вас НЕ потому, что гугл ошибочно решил, что они авторы контента. Просто алгоритм поисковой выдачи считает эти сайты более качественными.

 

Змінено користувачем florapraktik
  • +1 1
Надіслати
Поділитися на інших сайтах


  • 3 weeks later...
В 07.05.2018 в 10:48, chukcha сказал:

Создать специальную картинку как признак браузера - загрузил - человек. Не загрузил - бот

Можно как гугл спрашивать постоянно капчу

Надіслати
Поділитися на інших сайтах

Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
  • Зараз на сторінці   0 користувачів

    • Ні користувачів, які переглядиють цю сторінку

×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.