Jump to content
Search In
  • More options...
Find results that contain...
Find results in...

Rassol2

Extensions developer
  • Posts

    11,656
  • Joined

  • Last visited

Everything posted by Rassol2

  1. @Otche94 Да и скорость работы такого парсера упадет, так как будут дополнительные накладные расходы на передачу данных боту и обратно.
  2. забанили ip моего хостинга, и все клиенты перестали парсить этого донора. То есть, мне тогда придется иметь еше большой пул прокси. У меня есть движения в эту строну, но будет реализовано немного по другому.
  3. Из за особенности где модуль берет информацию о дате. То no ceched ввобше не участвует в выбор. Если вы выбираете фильтр по дате, то все ссылки что не были кешированы сразу исключаются. так что как я сказал сейчас нет возможности отобрать ссылки что не кешировались. такого фильтра нет.
  4. Внимание!!! Смотрю подымается количество пользователей которых приходится отправлять на работу с прокси. В связи с этим хочу заняться просветительской деятельностью. В этом мире нет ничего бесплатно, нельзя просто включить 5 потоков и парсить. За это можно попасть в бан. И кстати не только за это. Почему вас блокируют? Допустим у вас есть сайт он стоит на хостинге, и вас начинают парсить. То есть с одного ip приходит за минуту примерно 1000 запросов. И любой владелец сайта понимает что за одну минуту пользователь не может просмотреть 1000 страниц, наверное это бот. Так же ему пишет хостер что ваш сайт потребляет много ресурсов. Ведь мы понимаем что кроме нас на сайт донор заходят и обычные пользователи. Что делает владелец сайт? Правильно блокирует трафик который не похож на обычного пользователя. И еше и ресурсы выедает. Что делать нам ? Не доводить до греха. Это первое. Что бы не попасться не нужно наглеть. 1. Не включаете 5 потоков если вы не уверены что сайт донор проглотит такой трафик, и имейте уважение к другим владельцам магазина. Ведь их сайты начинают тормозить когда вы парсите их и тем самым выедаете ресурсы. Ресурсы которые донор мог бы потратить на отдачу информации потенциальному покупателю. 2. Используйте паузу парсинга. Поставьте хотя бы диапазон от 0-5 и модуль на каждый запрос будет хаотично выбирать паузу. То есть пауза то нет то пауза в 2 секунды то пауза в 5 секунд то в одну. то снова без паузы. Имитировать хоть какой то разброс в действиях. 3. Используйте кЭш!!! SimplePars поддерживает кэширования, но я заметил что сейчас никто не использует его. После выхода этой функции все использовали а сейчас почему то нет. Смотрите, когда у вас включен кэш, и вы парсите, вы делаете запрос на сайт донор, получаете страницу, модуль ее сохраняет к себе. Далее выполняет все что вам нужно. Но если вы что то сделали не так, вы исправляете настройки и снова запускаете парсинг, то модуль уже не долбит вашего донора, а берет данные из архива. Тем самым вы сокращаете риск попадании в бан к минимуму. Дак еще и + скорость работы раз в 100 увеличивается. Это когда данные берутся из кэша и кстати из кеша можно парсить в 5 потоков, так как вы берете данные из самого себя. Я искренен не понимаю почему сейчас это никто не использует. РЕКОМЕНДУЮ. 4. Если у вас не горят сроки, выставьте задание в крон. Поставьте паузу в пару секунд. Включите кэш и пусть ночью все медленно будет сделано. А если утром обнаружите неправильные настройки, все всегда сможете быстро перепарсить с кэша. Это же идеальный вариант. Ну а если вы уже были пойманы. Тут все печально. Печально потому что мы не знаем за какие параметры вас ставят на карандаш и дальше нужно подделывать запросы что бы обойти блокировку. А это уже играй в угадайку. Неизвестно сможете вы угадать или нет.
  5. Я не занимаюсь настройкой модуля, все свободное время трачу на поддержку и развитие. В данной теме есть люди кто занимаются настройкой надеюсь они вам отпишутся. @Axelenz @Flint2000 @Kiyoshi @partshez Ну или вы можете создать запрос на поиск исполнителя в соответствующей ветке форума. https://opencartforum.com/forum/53-наполнение-магазина/
  6. Скорее всего вы попали под бан у сайта донора за активный долбеж сайта. Теперь пройдется делать все через прокси. И настраивать запросы для обхода блокировки. https://simplepars.top/index.php?page=notes&tag_id=21
  7. Я кстати тоже не догнал. Я вижу что там есть фото в размере 461x415 оно без водного знака. Его можно взять. Вы про это говорите, или вы нашли решение как парсить фото в высоком качестве без водного знака ?
  8. Я просто не знаю что вам сказать. Меня в водит в ступор что вы этого не знаете. Если вы разберетесь как работает поиск замена то у вас не будет таких вопросов. Пробуйте как вам будет удобно. Это тема про скрипт.
  9. Вывод в корне не верный. С левой стороны может быть все. не хочу вас обидеть но вывод скорее будет таков. Вы просто не знаете как работает поиск замена в модуле И это странно. Причина и следствие описано в этом ответе рассмотрите внимательно!!!! https://opencartforum.com/topic/174967-sborka-kategoriy-skript-sopostavleniya-kategoriy-s-donorom/?do=findComment&comment=1709818
  10. тут у него хитрость. Водный знак появляется после определенного разрешения. То есть фото до размера в 300х300 без водного знака свыше с водным. Вот прмиер. Без Добавляем на один пиксель и уже с.
  11. Скрипт сделал вам так. Возьми банан поменяй на арбуз. А вы вместо того что бы на вход подать банан подаете ему стул и говорите что не работают правила. Чувствуете в чем проблема ?
  12. не понял а причем тут скрипт ? Скрипт делает вам сопоставление и подгоняет вам правила поиск замены. Скрипт не несет ответственности за то что вы не подготовили данные для поиск замены с левой стороны. Подготовите будут работать.
  13. В повторяющихся границах парсинга правила применяются К каждому повторению, к каждому по очереди все правила. И после этого все повторения склеиваются в одну строку и между повторениями вставляется разделитель, указанный в настройках границы.
  14. https://simplepars.top/index.php?page=notes&tag_id=27 ну если антология понятно то почему вы считаете что возможно и мыть посуду и садить огурца одновременно ? не можете угадать и не нужно для этого и есть таймаут. Указали выполнять с 0-5 это пять часов. Поставьте таймаут 5ч Все раз в сутки будет выполнятся. Если тайм аут указывается у каждого задания отдельно, то логично что тайм аут распространяется на то задание на которое вы указали. Если очередь одинаковая то первым начнет выполнятся то задание которое база данных отдаст модулю первым. Как правило это то задание что было первым создано в кроне. Но это не гарантируется, как написано в мануале Mysql
  15. Странно как вы дожили до этого момента не зная базовый функционал модуля. А если посмотреть так ? Неужели вы спустя два года до сих пор не знаете как работает поиск замена в модуле ?
  16. так ссылка что вы даете и в браузере открывается с водным знаком. Если ссылка ведет на фото с водяным знаком, то там и будет водный знак. Исчите ссылку на фото без него. Если такое кончено есть.
  17. Общая очередь для всех заданий. А вы уверены что парсинг не идет по десятому кругу ? Вы не забыли использовать таймаут. Если нет таймаута то будет одно и тоже делать пока не закончится период времени. Аналогия. У вас есть сотрудник в кафе, вы сказали ему мыть посуду с 0-5 часав. Он закончил мыть в два часа. Таймаут вы ему не даете. Видите что он ничего не делает после двух часов. Что вы скажете ? Почему бездельничает!!!! И что бы такого не было, сотрудник будет мыть посуду без остановки. с 0-5 его может остановить только. 1. Окончания времени в которое он должен мыть. 2. Официально разрешенный перекур после выполнения задания (таймаут) Заданий на день может быть много, но сотрудник у вас один. И он бегает от задания к заданию. В момент тайм аута одного здания сотрудник может выполнять другое.
  18. Да но она появляется только после создания товара. А когда модуль передает данные на создания у него уже все данные сформированы. Модуль передает все данные в функцию по созданию товара. И тут создается товар, и только тогда становится известен id и как либо использовать это уже не получится.
  19. подправил структуры категорий, если в имени категории есть кавычки.
×
×
  • Create New...

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.