Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

12 минут назад, travkovs сказал:

.

Спасибо! Буду очень ждать! Сразу приобрету модуль!

Тогда подписывайтесь на обновления модуля и вы не пропустите обновления с необходимым вам функционалом. :wink:
 

Спойлер

QCcwIN9.png

 

Надіслати
Поділитися на інших сайтах

46 минут назад, Rassol2 сказал:

Вы можете только определить по определенному тексту, парсить данные страницы которая содержит определенный текст или пропустить.
Но вот так что бы модуль решал что на что поменять такого нет. Я думаю это не реально сделать.

Я имел ввиду нечто иное...

Поразмыслив, чего же мне лично не хватает в модуле, я пришёл к выводу, что не хватает информативности!

Аналогия: мы смотрим фильм с запутанным сюжетом и иногда лишь по заключительным титрам понимаем, что фильм то уже закончился )

Вернёмся к парсеру... Про то, что парсинг закончился мы понимаем по тексту "Ссылок в очереди: 0". Лично мне не хватает краткого отчёта по самому парсингу, как отработал модуль моё задание! Никто из обычных (да и не обычных тоже) пользователей не будет просто так лезть в Логи и читать подробный отчёт о парсинге 10,000 товаров... это избыточная информация. А вот краткий отчёт в конце работы парсера, мол ты мне дал 10.000 ссылок, я спарсил 9.000, а остальное "ниасилил многа букаф"... Вот при таких словах уже есть смысл лезть в логи и смотреть, а почему не выполнено задание...

Точно так же я писал про информативность о наличии в тексте Запрещённого контента от Гугла...

  • +1 1
Надіслати
Поділитися на інших сайтах


9 часов назад, Axelenz сказал:

Я имел ввиду нечто иное...

Поразмыслив, чего же мне лично не хватает в модуле, я пришёл к выводу, что не хватает информативности!

Аналогия: мы смотрим фильм с запутанным сюжетом и иногда лишь по заключительным титрам понимаем, что фильм то уже закончился )

Вернёмся к парсеру... Про то, что парсинг закончился мы понимаем по тексту "Ссылок в очереди: 0". Лично мне не хватает краткого отчёта по самому парсингу, как отработал модуль моё задание! Никто из обычных (да и не обычных тоже) пользователей не будет просто так лезть в Логи и читать подробный отчёт о парсинге 10,000 товаров... это избыточная информация. А вот краткий отчёт в конце работы парсера, мол ты мне дал 10.000 ссылок, я спарсил 9.000, а остальное "ниасилил многа букаф"... Вот при таких словах уже есть смысл лезть в логи и смотреть, а почему не выполнено задание...

Точно так же я писал про информативность о наличии в тексте Запрещённого контента от Гугла...

Что то подобное будет реализовано.
 

Надіслати
Поділитися на інших сайтах

48 минут назад, Rassol2 сказал:

Что то подобное будет реализовано.
 

Да, про краткий отчет о парсинге поддерживаю. Что- такое иметь хотелось бы. Логи- отлично, это наше все, как говорит автор... Но краткий нужен.

  • +1 1
Надіслати
Поділитися на інших сайтах


1 минуту назад, partshez сказал:

Да, про краткий отчет о парсинге поддерживаю. Что- такое иметь хотелось бы. Логи- отлично, это наше все, как говорит автор... Но краткий нужен.

сейчас все усложняется тем что есть разные списки, и есть возможность нажимать стоп старт.

Сейчас что бы реализовать что то подобное нужно учитывать показание под каждый список товаров. А то странно будет видеть такую картину.
Вы парсили все ссылки проекта. Затем выбрали ссылки определенного списка.
 

Спойлер

fz5LSWt.png


А модуль вам такой выдает спарсено 100 ссылок удачных 99 неудачных 1
А у вас в списке всего 10 ссылок.

То есть реализация этого тоже потребует многих переработка.
Наверное прошло то время когда можно было выкидывать крутые обновления по три раза в неделю :-D

Надіслати
Поділитися на інших сайтах

Добрый день! Подскажите пожалуйста, а как быть, если сбор ссылок происходит с XML прайс листов и у них в некоторых <url> </url>, а в других loc loc

если ли возможность и то и понимать? в данный момент, как я понимаю, это решается тут, а мог бы быть, например, переключатель в настройках парсинга или что-то такое

// $reg_url = '#\<loc\>(.*?)\<\/loc\>#s';
		$reg_url = '#<url>(.*?)</url>#s';

 

Надіслати
Поділитися на інших сайтах


8 минут назад, khvoroffski сказал:

Добрый день! Подскажите пожалуйста, а как быть, если сбор ссылок происходит с XML прайс листов и у них в некоторых <url> </url>, а в других loc loc

если ли возможность и то и понимать? в данный момент, как я понимаю, это решается тут, а мог бы быть, например, переключатель в настройках парсинга или что-то такое


// $reg_url = '#\<loc\>(.*?)\<\/loc\>#s';
		$reg_url = '#<url>(.*?)</url>#s';

 

все сделано под переключатель, для того что бы реализовать переключатель мне хватит суток. Но как оказалось это никому не нужно.
нет спроса нет реализации.
А реализовывать без спроса не хочу, банально по той причине что лишние кнопки не добавляют понимания интерфейсам модуля.

Так что можете сделать как вы написали и это будет работать.

Но если вопрос касается той темы что я вам отвечал ранние. И вы банально хотите себе сделать прайс лист с ссылочками в колонку.
То сделайте границу парсинга повторяющуюся
укажите текст начала и конца парсинга соответственно.
<url>

</url>

 

Укажите разделитель {csvnl}
и спарсите себе все ссылки из xml в прайс лист в формате csv для загрузки через АОП

Надіслати
Поділитися на інших сайтах

27 минут назад, Rassol2 сказал:

все сделано под переключатель, для того что бы реализовать переключатель мне хватит суток. Но как оказалось это никому не нужно.
нет спроса нет реализации.
А реализовывать без спроса не хочу, банально по той причине что лишние кнопки не добавляют понимания интерфейсам модуля.

Так что можете сделать как вы написали и это будет работать.

Но если вопрос касается той темы что я вам отвечал ранние. И вы банально хотите себе сделать прайс лист с ссылочками в колонку.
То сделайте границу парсинга повторяющуюся
укажите текст начала и конца парсинга соответственно.
<url>

</url>

 

Укажите разделитель {csvnl}
и спарсите себе все ссылки из xml в прайс лист в формате csv для загрузки через АОП

да да да ))) Я вот этим путем и пошел ))

 

Про реализацию понимаю, инициатива она такая, зачастую сношает инициатора )

Надіслати
Поділитися на інших сайтах


Вопрос по парсингу изображений и текста!

Возможно парсить несколько изображений со страниц донора, если в карточке товара их, например, 10 шт

Бывает так что Описание разделено на одной странице на 2-3 части с разными маркерами, бывает и без маркеров

.

Как всё спарсить за один приём вашим инструментом? 

Надіслати
Поділитися на інших сайтах


2 часа назад, travkovs сказал:

Вопрос по парсингу изображений и текста!

Возможно парсить несколько изображений со страниц донора, если в карточке товара их, например, 10 шт

Бывает так что Описание разделено на одной странице на 2-3 части с разными маркерами, бывает и без маркеров

.

Как всё спарсить за один приём вашим инструментом? 

Для каждой части делаете отдельную границу по всем правилам. Описание, Доп описание, Доп описание 1. При настройке Парсинга в ИМ указываете все эти границы в поле Описание. Можно не только границы, но и слова

По фото. Тоже можно в границу Изображения добавить не сколько границ. Гл фото плюс Доп фото

Змінено користувачем partshez
  • +1 1
Надіслати
Поділитися на інших сайтах


1 час назад, partshez сказал:

Для каждой части делаете отдельную границу по всем правилам. Описание, Доп описание, Доп описание 1. При настройке Парсинга в ИМ указываете все эти границы в поле Описание. Можно не только границы, но и слова

По фото. Тоже можно в границу Изображения добавить не сколько границ. Гл фото плюс Доп фото

Спасибо. мне достаточно знать можно или нет. Ведь модуля у меня пока ещё нет )

Надіслати
Поділитися на інших сайтах


10 минут назад, travkovs сказал:

Спасибо. мне достаточно знать можно или нет. Ведь модуля у меня пока ещё нет )

Если есть донор для парсинга, покупайте модуль без раздумий! Очень много возможностей для парсинга и обработки уже существующего товара

  • +1 1
Надіслати
Поділитися на інших сайтах


1 час назад, partshez сказал:

Если есть донор для парсинга, покупайте модуль без раздумий! Очень много возможностей для парсинга и обработки уже существующего товара

Правильно я понимаю, его для импорта и экспорта можно использовать?

Надіслати
Поділитися на інших сайтах


2 минуты назад, travkovs сказал:

Правильно я понимаю, его для импорта и экспорта можно использовать?

Импорта. И создания прайс листов по сайту донору.

Надіслати
Поділитися на інших сайтах

Здравствуйте предлагаю добавить в менеджер ссылок возможность отсеивать по дате кэширования это позволит отобрать ссылки который были закешированны давно, и очистить их для того что бы спарсились заново.
 

Screenshot2.1.png

Змінено користувачем Kiyoshi
  • +1 1
Надіслати
Поділитися на інших сайтах


9 минут назад, Kiyoshi сказал:

Здравствуйте предлагаю добавить в менеджер ссылок возможность отсеивать по дате кэширования это позволит отобрать ссылки который были закешированны давно, и очистить их для того что бы спарсились заново.

Да в этом есть смысл я подумаю как реализовать.

Надіслати
Поділитися на інших сайтах

Извините у меня ещё вопрос созрел!

Как решен вопрос по обходу Бана по User-Agent-у ?

===============================================

Я о том что:

- есть парсеры которые представляются как приложение и где есть запрет на парсинг получим блок

- есть парсеры которые показывают что они как GoogleBot  или  YandexBot  (Подмена юзер-агента вполне себе решает данное ограничение. К большинству сайтов)

- если есть блокировки для этих ботов в robots.txt, то есть и обходчики этих ограничений тоже
- бывает что есть и анализатор анализатора активности по IP и сбавляет темпы активности чтоб не делать нагрузку и чтоб не забанили парсер

.....

Какие инструменты у вас применены? и есть ли они?

Надіслати
Поділитися на інших сайтах


4 минуты назад, travkovs сказал:

Какие инструменты у вас применены? и есть ли они?

а у нас вы можете прикинуться хоть гуглом. Хоть дядей петей.
Хоть браузером хромом. Хоть мазилой.
Даже можете прикинутся браузером в телевизоре. То есть встроенным браузером в смарт ТВ

Для этого все есть и все описано здесь
https://simplepars.top/index.php?page=notes&tag_id=21
 

Вы сами настраиваете какие заголовки отправлять донору. Какой юсер агент, и даже можете их мешать на каждый запрос свой.
То есть можете сделать 10 запросов подряд и все запросы будут с разных ip с разных браузеров и содержать разные данные.
И донору будет крайне сложно определить что они пришли с одно и того же места.

Надіслати
Поділитися на інших сайтах

Господа, спасайте)

Патаюсь спарсить сайт, пример страницы https://www.router-switch.com/pvdm3-192-p-1162.html

Но он защищен сервисом cloudflare (https://www.cloudflare.com/)

Не могу понять как его обойти, User-Agent, куки, заголовки настраивал, но итог один.

 

В итоге при парсинге получаю:

  1. Спойлер

     

    1. #https://www.router-switch.com/pvdm3-192-p-1162.html
    2. <!DOCTYPE HTML>
    3. <html lang="en-US">
    4. <head>
    5. <meta charset="UTF-8" />
    6. <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    7. <meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1" />
    8. <meta name="robots" content="noindex, nofollow" />
    9. <meta name="viewport" content="width=device-width,initial-scale=1" />
    10. <meta http-equiv="refresh" content="12">
    11. <title>Just a moment...</title>
    12. <style type="text/css">
    13. html, body {width: 100%; height: 100%; margin: 0; padding: 0;}
    14. body {background-color: #ffffff; color: #000000; font-family:-apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", Roboto, Oxygen, Ubuntu, "Helvetica Neue",Arial, sans-serif; font-size: 16px; line-height: 1.7em;-webkit-font-smoothing: antialiased;}
    15. h1 { text-align: center; font-weight:700; margin: 16px 0; font-size: 32px; color:#000000; line-height: 1.25;}
    16. p {font-size: 20px; font-weight: 400; margin: 8px 0;}
    17. p, .attribution, {text-align: center;}
    18. #spinner {margin: 0 auto 30px auto; display: block;}
    19. .attribution {margin-top: 32px;}
    20. @keyframes fader { 0% {opacity: 0.2;} 50% {opacity: 1.0;} 100% {opacity: 0.2;} }
    21. @-webkit-keyframes fader { 0% {opacity: 0.2;} 50% {opacity: 1.0;} 100% {opacity: 0.2;} }
    22. #cf-bubbles > .bubbles { animation: fader 1.6s infinite;}
    23. #cf-bubbles > .bubbles:nth-child(2) { animation-delay: .2s;}
    24. #cf-bubbles > .bubbles:nth-child(3) { animation-delay: .4s;}
    25. .bubbles { background-color: #f58220; width:20px; height: 20px; margin:2px; border-radius:100%; display:inline-block; }
    26. a { color: #2c7cb0; text-decoration: none; -moz-transition: color 0.15s ease; -o-transition: color 0.15s ease; -webkit-transition: color 0.15s ease; transition: color 0.15s ease; }
    27. a:hover{color: #f4a15d}
    28. .attribution{font-size: 16px; line-height: 1.5;}
    29. .ray_id{display: block; margin-top: 8px;}
    30. #cf-wrapper #challenge-form { padding-top:25px; padding-bottom:25px; }
    31. #cf-hcaptcha-container { text-align:center;}
    32. #cf-hcaptcha-container iframe { display: inline-block;}
    33. </style>
    34.  
    35. <script type="text/javascript">
    36. //<![CDATA[
    37. (function(){
    38.  
    39. window._cf_chl_opt={
    40. cvId: "1",
    41. cType: "non-interactive",
    42. cNounce: "62944",
    43. cRay: "5c4decbb9fbfd689",
    44. cHash: "4b8c5300221de6c",
    45. cRq: {
    46. d: "unKM/dAaoUhsadcvePhCPSFViCilGNeyFm/ukEfl/FkZgfSBWLAa/4idOyb+xDNRdtIysYsLvC0Gy3Qf4TLyAT9OvJc+BznIhOxHKNFkunO7CyGgGx9AsmyflP02WPZ0t0x9L/Xe4A1rL1CCzXZfzNUDmt6aUBEYLqyT6MU6gBeyENUC88JBj7zhwtQFXSTZjW2qNU/mT10oeI1DkLmGP7Har+SQhwIc4+m7bD8bqRAEXew2hwHdyadGbW0yuYHFw0R4evLK8cgL/sHqoEwJ9zMltoaTPBNj6zNrlOsLl8wHtxwm6fwz5iJYgSOKbIIPNQhJxUoU2Xx+J/ujdl5XAtoeRF7fhUWiwqof4cBBkreRy6L8OR3nFqyZHPhu4DWF5FWHZgKs9kpWLjgLM37FVA==",
    47. t: "MTU5Nzc3NzcxOS42MjIwMDA=",
    48. m: "jmi/bV6i/JGAxgYLteRv+hDLhu08S7peH6aK7imXgBU=",
    49. i1: "vuPKmKaHCTHAIg3csj3kjg==",
    50. i2: "2+EbHMxi66MJjHIBkdN2zg==",
    51. }
    52. }
    53. window._cf_chl_enter = function(){window._cf_chl_opt.p=1};
    54.  
    55. var a = function() {try{return !!window.addEventListener} catch(e) {return !1} },
    56. b = function(b, c) {a() ? document.addEventListener("DOMContentLoaded", b, c) : document.attachEvent("onreadystatechange", b)};
    57. b(function(){
    58. var cookiesEnabled=(navigator.cookieEnabled)? true : false;
    59. var cookieSupportInfix=cookiesEnabled?'/nocookie':'/cookie';
    60. var a = document.getElementById('cf-content');a.style.display = 'block';
    61. var isIE = /(MSIE|Trident\/|Edge\/)/i.test(window.navigator.userAgent);
    62. var trkjs = isIE ? new Image() : document.createElement('img');
    63. trkjs.setAttribute("src", "/cdn-cgi/images/trace/jschal/js"+cookieSupportInfix+"/transparent.gif?ray=5c4decbb9fbfd689");
    64. trkjs.id = "trk_jschal_js";
    65. trkjs.setAttribute("alt", "");
    66. document.body.appendChild(trkjs);
    67.  
    68. document.body.appendChild(trkjs);
    69. var cpo = document.createElement('script');
    70. cpo.type = 'text/javascript';
    71. cpo.src = "/cdn-cgi/challenge-platform/orchestrate/jsch/v1";
    72. var done = false;
    73. cpo.onload = cpo.onreadystatechange = function() {
    74. if (!done && (!this.readyState || this.readyState === "loaded" || this.readyState === "complete")) {
    75. done = true;
    76. cpo.onload = cpo.onreadystatechange = null;
    77. window._cf_chl_enter()
    78. }
    79. };
    80. document.getElementsByTagName('head')[0].appendChild(cpo);
    81.  
    82. }, false);
    83. })();
    84. //]]>
    85. </script>
    86.  
    87.  
    88. </head>
    89. <body>
    90. <table width="100%" height="100%" cellpadding="20">
    91. <tr>
    92. <td align="center" valign="middle">
    93. <div class="cf-browser-verification cf-im-under-attack">
    94. <noscript>
    95. <h1 data-translate="turn_on_js" style="color:#bd2426;">Please turn JavaScript on and reload the page.</h1>
    96. </noscript>
    97. <div id="cf-content" style="display:none">
    98.  
    99. <div id="cf-bubbles">
    100. <div class="bubbles"></div>
    101. <div class="bubbles"></div>
    102. <div class="bubbles"></div>
    103. </div>
    104. <h1><span data-translate="checking_browser">Checking your browser before accessing</span> router-switch.com.</h1>
    105.  
    106. <div id="no-cookie-warning" data-translate="turn_on_cookies" style="display:none">
    107. <p data-translate="turn_on_cookies" style="color:#bd2426;">Please enable Cookies and reload the page.</p>
    108. </div>
    109. <p data-translate="process_is_automatic">This process is automatic. Your browser will redirect to your requested content shortly.</p>
    110. <p data-translate="allow_5_secs">Please allow up to 5 seconds&hellip;</p>
    111. </div>
    112.  
    113. <form class="challenge-form" id="challenge-form" action="/pvdm3-192-p-1162.html?__cf_chl_jschl_tk__=f984dff590d6682e8c3835f38f62ff32bdda1650-1597777719-0-AQtcA3FNQawhsWpCg0f3v7OBrpnL0CayQzfMgbLn5MGA60u6jAVot99RNlxnntJNo9J9pFsJ2tk4GBbTbQZXrW-oziwK-YCKVGUPr4gpl7_BvTLHUgWT43ogja8dYBCh2ayWCZfNVt-Nng_Pyf7lho4LHnYLlQBuAmBlhZ6jxqYSqohFqN7nCumVFAHfBo4Akok92cYIojg-UQnOehaemupO7cm3grwUqqXkon4DgL6EcuDt8RvEBhdCgWMK6L5znJVTb3_ONb-LmZS4q8dSR5nO9ZLlxEdcbSG6NPB-Jd5Y" method="POST" enctype="application/x-www-form-urlencoded">
    114. <input type="hidden" name="r" value="04c0b4d18e1e5ed3f72cef6c3406df8c5ee1ccf6-1597777719-0-AZ5hup29vMrjZbG/PYvzxsJ2Lj8Gbv33OVdABFLYkBR+PUCL0Y3GULSjRvib7MYHeIIWrYwH8hvb+YWD+VX66W9ZJ2wSEYpL5l3Ef/cNN2mCd/ILNZEC0a+PzEZtjwmzlUG5EDrqUNGSX4iBTPBp72h5YV+vA4e7UL4RFbiVXY2+cY9BojOlpRNlpWEvz9JHciCWmvgjHGEMYbpTRPUQkOWMG+Z1aUY9vJRTQD7nxEW/G8LmjrkeE00ELlPr5jhd579OXmHFilsWC65LqmpTdwPPda2yCA1iAoHLo8tEfFh2RYA7yPmL6XVa9465sJ2utrzcqi4jTed/APXnSW/vQOFYHZ/lnVX7ePd93DwnuYYQ8OZcW9bczXUwNOqi/edjTWania/vtmEnX79bsEvMIG3huAJRruAAL6QPQ00wiv3ErQVCoG5d5Ojy0OLAKy58NfkKXNbzerXVkbX5pFTrhg38jBRkjWHpFztcBcNYsHuIJLqC8Q5nK1Dnsqz0azVEXpPsoE7ZkNHfbd2mUOLFLMMc+6FKBkkr0Mm+yq4IShs8LcW3G49k+grEGq15GSudA7m6Zinla3h3fjtfztiwXBbdJ6QP/TkcGKr+C+SNDaGTQX7MJrDAXI49xLSgKR4jkZhOqSyA+M/EzGSDDtDv5h9dx2Q2iji9I05yjd+NmhtQM/5F19U1sZLgeuxgXHYuIk33nEiSctHasVMWtdEbdRltB35qQD430dI35yZDeDbxEQ4NFnrhBzHxyvKq++ir3RYrIJiyjre48vLWWToAifi9MgjnAk+TMOGjSbbTUPZ4HyTyPG65PWo1pJBo7dE8OUGLjHW1i+3gZ5L89B8NvuUSQG/c7WUeMDf06q9DnsSdhUA5jESJElX98H/6Rf5yw2qa6lxttof+dyrKFwYfYt2rfSe1edn3wJx915/0owcyUeKRs7RbtGWhybTAMiA0sgun0f+/lpgDEhF3D30EkBjTAFiIlLxZJS8JeMk538/ZAsNtaOo85v3Qcmwqia3KQ+cdGlg8e+xu88AkGiMVI28rBMqg5DOA/T1zG1poiZmbzuEnw8lDYiVW9ZCt/EFMBs7XDDMaO6im9ATqaMbQY/OANWK49xVGNbpyIbzNNCKFWUZbuw4pL3U84V+haootdU2/Wb5KizVbhcJ/EMuKvdbytqDJtanlnmLqG++DuX2GqkD8g5G5qid0O9ILzY0mvo02j0dPY0jngSXwpHHueT8kVp4esIlW4TDu9QmJymKFv3wCX8taXaPB8HgvOhHpugWK6fdb+l9yt6b7h3ObuW3SyopxI2/mMso00RGtCCY5yWsEyiHFuCSmNjSxuVBxJo0Jt2KdeNi/f9WkDmlEWo1NmcQsRYeXZlZppGtwgyzvyx0HWrFbi0kRLMmk1Tr85T92eYFZ5ZyD3cB7gDC43oXBegtoZgP2W5Nb23GMVDutYoGOPSQbD3SsGWe8G/SMCqINrcl3Q6wT4C9pTbR/0gYU+7sn7bLZrGBe2I28qepkKk5nJ95NVUfO4TqaVnru1+R4equufMSWOxqs5jLSl8M="/>
    115. <input type="hidden" value="91544d01cac5faa1217e670bc95c2f54" id="jschl-vc" name="jschl_vc"/>
    116. <!-- <input type="hidden" value="" id="jschl-vc" name="jschl_vc"/> -->
    117. <input type="hidden" name="pass" value="1597777723.622-krp3qFonP0"/>
    118. <input type="hidden" id="jschl-answer" name="jschl_answer"/>
    119. </form>
    120.  
    121. <div id="trk_jschal_nojs" style="background-image:url('/cdn-cgi/images/trace/jschal/nojs/transparent.gif?ray=5c4decbb9fbfd689')"> </div>
    122. </div>
    123.  
    124.  
    125. <div class="attribution">
    126. DDoS protection by <a href="https://www.cloudflare.com/5xx-error-landing?utm_source=iuam" target="_blank">Cloudflare</a>
    127. <br />
    128. <span class="ray_id">Ray ID: <code>5c4decbb9fbfd689</code></span>
    129. </div>
    130. </td>
    131.  
    132. </tr>
    133. </table>
    134. </body>
    135. </html>
    136. НЕУДАЧНЫЙ ЗАПРОС!!!
    137. Номер ошибки = 0
    138. Текст ошибки =
    139. Ссылка = https://www.router-switch.com/pvdm3-192-p-1162.html
    140. Больше информации можно получить в логах модуля SimplePars

     

Змінено користувачем xshader
обновление
Надіслати
Поділитися на інших сайтах


1 минуту назад, xshader сказал:

Господа, спасайте)

Патаюсь спарсить сайт, пример страницы https://www.router-switch.com/pvdm3-192-p-1162.html

Но он защищен сервисом cloudflare (https://www.cloudflare.com/)

 

В итоге при парсинге получаю:

ну вот вы нарвались на проверку трафика.

Теперь вам нужно использовать прокси сервера и заголовки что бы претворится другим пользователем.
Кстати в таком случаи стоит увеличить паузу парсинга и не выставлять много потоков.
То есть ваша задача теперь имитировать действия обыкновенного пользователя.

Все настройки запросов есть здесь - https://simplepars.top/index.php?page=notes&tag_id=21

Надіслати
Поділитися на інших сайтах

46 минут назад, Rassol2 сказал:

ну вот вы нарвались на проверку трафика.

Теперь вам нужно использовать прокси сервера и заголовки что бы претворится другим пользователем.
Кстати в таком случаи стоит увеличить паузу парсинга и не выставлять много потоков.
То есть ваша задача теперь имитировать действия обыкновенного пользователя.

Все настройки запросов есть здесь - https://simplepars.top/index.php?page=notes&tag_id=21

 

Да вот пока не вышло, подставляю из своего браузера заголовки как в инструкции, прикручиваю приватные прокси, проверяю их через модуль (статус ок), стоит только начать и все прокси cloudflare сразу банит. Количество потоков 1, пауза 0-30

Надіслати
Поділитися на інших сайтах


3 минуты назад, xshader сказал:

 

Да вот пока не вышло, подставляю из своего браузера заголовки как в инструкции, прикручиваю приватные прокси, проверяю их через модуль (статус ок), стоит только начать и все прокси cloudflare сразу банит. Количество потоков 1, пауза 0-30

обход блокировок процесс не простой по этому всегда рекомендую не доводить до этого.
Теперь сидите подбирайте варианты, это игра с закрытыми глазами вы незнаете по каким параметрам вас определяют и нужно искать.

Так же у них может быть база проксей, то есть большой список ip запросы с которого по умолчанию являются подозрительными, потому что не только вы используете эти прокси.
Тут алгоритма у меня нет.

Все что есть на этот случай, это полный функционал под подделыванию запроса. А ваша задача теперь миксовать все для получения нужного вам результата.

Надіслати
Поділитися на інших сайтах

В 13.08.2020 в 08:33, Rassol2 сказал:

Здравствуйте.

Если вы имеете в виду.
Если я правило вас понял может ли модуль создать границу парсинга, и использовать ее данные как значение другой границы парсинга. То нет такое не умеет.

Но у меня есть следующий вопрос, я не представляю для чего это может понадобится. Приведите пример где без такого не обойтись.
А то как по мне это излишний функционал в любом парсере.
 

https://royalflame.ru/catalog/kaminokomplekt-capri-beloe-derevo-delyuks-s-ochagom-fobos-fx-brass-3473/
Если вдруг я не вижу решения, то прошу указать.
Есть составной товар - комплект. 
На сайте донора выводится цена, но спарсить цену не возможно, ее нет в коде. 
Зато есть цены составных частей, портала (тут проблем нет, четкая граница) и очага. Здесь в коде есть список очагов и цен на них. Но даже с новой возможностью складывать цены, с этого сайта не получится взять цену нужного очага. Комбинаций там более 1000 возможно, очагов и порталов. И позиция нужного очага не постоянная, на одном комплекте он идет первым, на другом десятым и т.д. Была бы возможность спарсить цены для каждого очага и подставлять их в зависимости от названия комплекта вопрос был бы решен. Это в принципе реально, но потом придется постоянно обновлять список цен в ручную. 
И тут как раз не обойтись, как я вижу, без этого функционала. Ну или если бы модуль обрабатывал js.

Змінено користувачем farshmac
Надіслати
Поділитися на інших сайтах


https://royalflame.ru/catalog/kaminokomplekt-capri-beloe-derevo-delyuks-s-ochagom-fobos-fx-brass-3473/
Если вдруг я не вижу решения, то прошу указать.
Есть составной товар - комплект. 
На сайте донора выводится цена, но спарсить цену не возможно, ее нет в коде. 
Зато есть цены составных частей, портала (тут проблем нет, четкая граница) и очага. Здесь в коде есть список очагов и цен на них. Но даже с новой возможностью складывать цены, с этого сайта не получится взять цену нужного очага. Комбинаций там более 1000 возможно, очагов и порталов. И позиция нужного портала не постоянная, на одном комплекте он идет первым, на другом десятым и т.д. Была бы возможность спарсить цены для каждого очага и подставлять их в зависимости от названия комплекта вопрос был бы решен. Это в принципе реально, но потом придется постоянно обновлять список цен в ручную. 
И тут как раз не обойтись, как я вижу, без этого функционала. Ну или если бы модуль обрабатывал js.
Сейчас не за рабочим местом когда вернусь и попробую реализовать и тогда смогу отписаться. Это уже будет скорее всего ночью.

Отправлено с моего Pixel через Tapatalk

Надіслати
Поділитися на інших сайтах

Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз

×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.