Отвечал мне как-то автор на этот вопрос. Я даже сохранил в заметках: «
Не включаете 5 потоков если вы не уверены что сайт донор проглотит такой трафик, и имейте уважение к другим владельцам магазина.
Ведь их сайты начинают тормозить когда вы парсите их и тем самым выедаете ресурсы.
Ресурсы которые донор мог бы потратить на отдачу информации потенциальному покупателю.
2. Используйте паузу парсинга.
Поставьте хотя бы диапазон от 0-5 и модуль на каждый запрос будет хаотично выбирать паузу.
То есть пауза
то нет
то пауза в 2 секунды
то пауза в 5 секунд
то в одну.
то снова без паузы.
Имитировать хоть какой то разброс в действиях.
3. Используйте кЭш!!!
SimplePars поддерживает кэширования, но я заметил что сейчас никто не использует его.
После выхода этой функции все использовали а сейчас почему то нет.
Смотрите, когда у вас включен кэш, и вы парсите, вы делаете запрос на сайт донор, получаете страницу, модуль ее сохраняет к себе.
Далее выполняет все что вам нужно.
Но если вы что то сделали не так, вы исправляете настройки и снова запускаете парсинг, то модуль уже не долбит вашего донора, а берет данные из архива.
Тем самым вы сокращаете риск попадании в бан к минимуму. Дак еще и + скорость работы раз в 100 увеличивается.
Это когда данные берутся из кэша и кстати из кеша можно парсить в 5 потоков, так как вы берете данные из самого себя.
Я искренен не понимаю почему сейчас это никто не использует.
РЕКОМЕНДУЮ.
4. Если у вас не горят сроки, выставьте задание в крон.
Поставьте паузу в пару секунд.
Включите кэш и пусть ночью все медленно будет сделано.
А если утром обнаружите неправильные настройки, все всегда сможете быстро перепарсить с кэша. Это же идеальный вариант.
Ну а если вы уже были пойманы. Тут все печально.
Печально потому что мы не знаем за какие параметры вас ставят на карандаш и дальше нужно подделывать запросы что бы обойти блокировку.
А это уже играй в угадайку. Неизвестно сможете вы угадать или нет.»