Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

30 хвилин назад, Rassol2 сказав:

Здравствуйте.
Скиньте мне в ЛС форму настройки, и номер заказа модуля. Я все посмотрю и за одно скину вам лицензионный ключ.

Доступ уточню у клиента, я делаю на старой версии видимо так как ключ не просит, может намекнете как привязать айди к цене?

 

3872,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x80 \u0441\u043c","dimension":"","price":{"id":3872,"price":11910,"old_price":15880,"base_price":6486,"currencyPostfix":""},"is_discount":"1"},"3873":{"id":3873,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x90 \u0441\u043c","dimension":"","price":{"id":3873,"price":13043,"old_price":17390,"base_price":7101,"currencyPostfix":""},"is_discount":"1"},"3874":{"id":3874,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x120 \u0441\u043c","dimension":"","price":{"id":3874,"price":16995,"old_price":22660,"base_price":9255,"currencyPostfix":""},"is_discount":"1"},"3875":{"id":3875,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x140 \u0441\u043c","dimension":"","price":{"id":3875,"price":19868,"old_price":26490,"base_price":10821,"currencyPostfix":""},"is_discount":"1"},"3876":{"id":3876,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x160 \u0441\u043c","dimension":"","price":{"id":3876,"price":22605,"old_price":30140,"base_price":12311,"currencyPostfix":""},"is_discount":"1"},"3877":{"id":3877,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x80 \u0441\u043c","dimension":"","price":{"id":3877,"price":11910,"old_price":15880,"base_price":6486,"currencyPostfix":""},"is_discount":"1"},"3878":{"id":3878,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x90 \u0441\u043c","dimension":"","price":{"id":3878,"price":13043,"old_price":17390,"base_price":7101,"currencyPostfix":""},"is_discount":"1"},"3879":{"id":3879,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x120 \u0441\u043c","dimension":"","price":{"id":3879,"price":16995,"old_price":22660,"base_price":9255,"currencyPostfix":""},"is_discount":"1"},"3880":{"id":3880,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x140 \u0441\u043c","dimension":"","price":{"id":3880,"price":19868,"old_price":26490,"base_price":10821,"currencyPostfix":""},"is_discount":"1"},"3881":{"id":3881,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x160 \u0441\u043c","dimension":"","price":{"id":3881,"price":22605,"old_price":30140,"base_price":12311,"currencyPostfix":""},"is_discount":"1"},"3883":{"id":3883,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x180 \u0441\u043c","dimension":"","price":{"id":3883,"price":25755,"old_price":34340,"base_price":14026,"currencyPostfix":""},"is_discount":"1"},"3884":{"id":3884,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x200 \u0441\u043c","dimension":"","price":{"id":3884,"price":28343,"old_price":37790,"base_price":15438,"currencyPostfix":""},"is_discount":"1"}};
				  window.disabledBasket = window.disabledBasket 
<script type="text/javascript">
  window.offers = window.offers || [];
  window.offers[460] = {"3872":{"id":3872,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x80 \u0441\u043c","dimension":"","price":{"id":3872,"price":11910,"old_price":15880,"base_price":6486,"currencyPostfix":""},"is_discount":"1"},"3873":{"id":3873,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x90 \u0441\u043c","dimension":"","price":{"id":3873,"price":13043,"old_price":17390,"base_price":7101,"currencyPostfix":""},"is_discount":"1"},"3874":{"id":3874,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x120 \u0441\u043c","dimension":"","price":{"id":3874,"price":16995,"old_price":22660,"base_price":9255,"currencyPostfix":""},"is_discount":"1"},"3875":{"id":3875,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x140 \u0441\u043c","dimension":"","price":{"id":3875,"price":19868,"old_price":26490,"base_price":10821,"currencyPostfix":""},"is_discount":"1"},"3876":{"id":3876,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"195x160 \u0441\u043c","dimension":"","price":{"id":3876,"price":22605,"old_price":30140,"base_price":12311,"currencyPostfix":""},"is_discount":"1"},"3877":{"id":3877,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x80 \u0441\u043c","dimension":"","price":{"id":3877,"price":11910,"old_price":15880,"base_price":6486,"currencyPostfix":""},"is_discount":"1"},"3878":{"id":3878,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x90 \u0441\u043c","dimension":"","price":{"id":3878,"price":13043,"old_price":17390,"base_price":7101,"currencyPostfix":""},"is_discount":"1"},"3879":{"id":3879,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x120 \u0441\u043c","dimension":"","price":{"id":3879,"price":16995,"old_price":22660,"base_price":9255,"currencyPostfix":""},"is_discount":"1"},"3880":{"id":3880,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x140 \u0441\u043c","dimension":"","price":{"id":3880,"price":19868,"old_price":26490,"base_price":10821,"currencyPostfix":""},"is_discount":"1"},"3881":{"id":3881,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x160 \u0441\u043c","dimension":"","price":{"id":3881,"price":22605,"old_price":30140,"base_price":12311,"currencyPostfix":""},"is_discount":"1"},"3883":{"id":3883,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x180 \u0441\u043c","dimension":"","price":{"id":3883,"price":25755,"old_price":34340,"base_price":14026,"currencyPostfix":""},"is_discount":"1"},"3884":{"id":3884,"material_id":0,"color_id":0,"onlay_id":0,"transformation_id":0,"size":"200x200 \u0441\u043c","dimension":"","price":{"id":3884,"price":28343,"old_price":37790,"base_price":15438,"currencyPostfix":""},"is_discount":"1"}};
  window.disabledBasket = window.disabledBasket || [];
  window.disabledBasket[460] = 0;
  window.extendedSetOffers = window.extendedSetOffers || [];
  window.extendedSetOffers[460] = [];
  window.offers_sort = window.offers_sort || [];
  window.offers_sort[460] = [3872,3873,3874,3875,3876,3877,3878,3879,3880,3881,3883,3884];
  window.products = window.products || [];
  window.products[460] = {"price":{"id":460,"price":11910,"old_price":15880,"base_price":0,"is_calc":1,"currencyPostfix":""},"is_discount":"1","stat_name":"\u041c\u0430\u0442\u0440\u0430\u0441\u044b \u00ab\u0422\u043e\u043d\u0443\u0441\u00bb","stat_url":"https:\/\/moscow.pinskdrev.ru\/catalog\/onlayn-rasprodaja\/matrats-tonus\/","stat_amount":11910,"stat_img":"https:\/\/moscow.pinskdrev.ru\/web\/catalogfiles\/catalog\/products\/tonus5be12997bc2e1.jpg","stat_id":460};
  window.materials = window.materials || [];
  window.materials[460] = [];
  window.colors = window.colors || [];
  window.colors[460] = [];
  window.onlays = window.onlays || [];
  window.onlays[460] = [];
  window.transformations = window.transformations || [];
  window.transformations[460] = [];
  window.sizes = window.sizes || [];
  window.sizes[460] = [{"id":"195x80 \u0441\u043c","title":"195x80 \u0441\u043c"},{"id":"195x90 \u0441\u043c","title":"195x90 \u0441\u043c"},{"id":"195x120 \u0441\u043c","title":"195x120 \u0441\u043c"},{"id":"195x140 \u0441\u043c","title":"195x140 \u0441\u043c"},{"id":"195x160 \u0441\u043c","title":"195x160 \u0441\u043c"},{"id":"200x80 \u0441\u043c","title":"200x80 \u0441\u043c"},{"id":"200x90 \u0441\u043c","title":"200x90 \u0441\u043c"},{"id":"200x120 \u0441\u043c","title":"200x120 \u0441\u043c"},{"id":"200x140 \u0441\u043c","title":"200x140 \u0441\u043c"},{"id":"200x160 \u0441\u043c","title":"200x160 \u0441\u043c"},{"id":"200x180 \u0441\u043c","title":"200x180 \u0441\u043c"},{"id":"200x200 \u0441\u043c","title":"200x200 \u0441\u043c"}];
  window.dimensions = window.dimensions || [];
  window.dimensions[460] = [];
  window.currency = '<span class="rub">руб. </span>';
  window.messages = window.messages || [];
  window.messages['offerDoesNotExist'] = 'Предложения с таким набором параметров не существует';
  window.messages['offerIsNotSelected'] = 'Выберите торговое предложение';
  window.messages['unknownError'] = 'Неизвестная ошибка. Свяжитесь с администратором';
  window.messages['chooseProductText'] = 'Добавить в набор';
  window.messages['offerCountText3'] = 'предметов';
  window.messages['offerCountText2'] = 'предмета';
  window.messages['offerCountText1'] = 'предмет';
  </script>
Надіслати
Поділитися на інших сайтах


@bodyak0 Это сделать возможно, я так понимаю вам нужно вот так связать.
 

Спойлер

9pVS7hO.png


Здесь нужно настраивать границы парсинга + поиск замену.
Как уточните про лицензию модуля тогда скинете данные настройки и я вам поправлю.

Буду ждать сообщения от владельца модуля, того кто покупал.

Поскольку у меня много пользователей приоритет все же на тех кто поддержал проект покупкой модуля. Я думаю все меня поймут.
Буду ждать сообщения.
 

Надіслати
Поділитися на інших сайтах

после 2-го поточного парсинга ссылок донор заблокировал, никакие настройки не работают, прокси платные так же, какие варианты есть?

2020-01-26 00:09:29| Парсинг : ОШИБКА | Прокси = [84.252.70.108:21***] | Неправильный запрос. Ответ сервера [400] Ссылка | https://www.озon.ru/category/telefony-i-smart-chasy-15501/?iscrossbord

Надіслати
Поділитися на інших сайтах


20 минут назад, sotavip сказал:

после 2-го поточного парсинга ссылок донор заблокировал, никакие настройки не работают, прокси платные так же, какие варианты есть?

2020-01-26 00:09:29| Парсинг : ОШИБКА | Прокси = [84.252.70.108:21***] | Неправильный запрос. Ответ сервера [400] Ссылка | https://www.озon.ru/category/telefony-i-smart-chasy-15501/?iscrossbord

Для того что бы проверить прокси подходят они или нет в модуле реализован прокси чекер.
Можете брать бесплатные прокси и прогонять по прокси чекеру в поиске тех что будут работать.

Затем использовать их.
Поскольку прокси это тонкая тема есть куча баз данных по прокси, и сайты которые сильно беспокоятся за свой контент изначально записывают все ip которые засветились в проксировании в белек лист. И платные тоже не исключение.

Самый лучший вариант это не доводить до работы через прокси. А если уже случилось тогда ищите рабочие прокси прогоняйте их.
Так потихоньку соберете базу из рабочих и парсите, только уже аккуратнее. Потому что донор может и их банить.

Еше как вариант если донор стоит на хостинге то возможно бан не надолго, сутки двое. Поскольку из за вас данный ip попадает в бан и страдают другие сайты на которые могут зайти пользователи от вашего провайдера. По этому хостеры частенько ставят только временные блоки.

Надіслати
Поділитися на інших сайтах

В 20.01.2020 в 17:26, Rassol2 сказал:

Загрузить его в корень интернет магазина на локальной машине.
И выполнить, то есть вызвать его
вашсайт.ру/openserver_boost.php
После чего скорость сбора ссылок возрастет до небес ))

 

Подскажите пожалуйста, для локальщиков,  это после каждого обновления надо повторять, или оно сохраняется ?

Надіслати
Поділитися на інших сайтах


1 минуту назад, Djek сказал:

 

Подскажите пожалуйста, для локальщиков,  это после каждого обновления надо повторять, или оно сохраняется ?

Должно сохранятся. А что есть проблемы ?

Надіслати
Поділитися на інших сайтах

В 26.01.2020 в 05:16, sotavip сказал:

после 2-го поточного парсинга ссылок донор заблокировал, никакие настройки не работают, прокси платные так же, какие варианты есть?

2020-01-26 00:09:29| Парсинг : ОШИБКА | Прокси = [84.252.70.108:21***] | Неправильный запрос. Ответ сервера [400] Ссылка | https://www.озon.ru/category/telefony-i-smart-chasy-15501/?iscrossbord

 

приветствую! такая ситуация, с одного хостинга парсится с другого нет, с одними и теми же прокси, прокси платные использую.

 хостинги на которые хочу переехать (с большим пространством )там оzон сразу  блокирует и загрузку страниц обрезает с таким сообщением

 frameborder=0 width="100%" height="100%" marginheight="0px" marginwidth="0px">Request unsuccessful. Incapsula incident ID: 0-169039218354357914</iframe></body></html>

защита срабатывает

 

не понятно по каим критериям блокирует, ,даже с использование прокси донор как то определяет ip адрес сайта или еще что то видимо

, ip адрес сайта на хостинге менял

что можно попробовать?

Надіслати
Поділитися на інших сайтах


2 часа назад, sotavip сказал:

приветствую! такая ситуация, с одного хостинга парсится с другого нет, с одними и теми же прокси, прокси платные использую.

 хостинги на которые хочу переехать (с большим пространством )там оzон сразу  блокирует и загрузку страниц обрезает с таким сообщением

 frameborder=0 width="100%" height="100%" marginheight="0px" marginwidth="0px">Request unsuccessful. Incapsula incident ID: 0-169039218354357914</iframe></body></html>

защита срабатывает

Здравствуйте.
Есть ограничение на использование портов на хостинге. И На одном хостинге может быть открыт тот или иной порт а на другом закрыт.
По этому может один и от же прокси не работать. Для этого есть чекер прокси.

Кстати так же. Не говоря об ограничениях самого прокси которые могут не работать с определенным трафиком.

 

2 часа назад, sotavip сказал:

не понятно по каим критериям блокирует, ,даже с использование прокси донор как то определяет ip адрес сайта или еще что то видимо

, ip адрес сайта на хостинге менял

что можно попробовать?

Есть прозрачные прокси которые часто попадают в публичный доступ.
Это прокси которые проксируют трафик но при этому объявляют сайту что они являются прокси и работают от ip такого  то клиента.
Это кешируюшие прокси, то есть они сами сдают сайту донору то что являются прокси и кто за этим стоит.

Для того что бы проверить настройки браузера, я сделал такую тестовую страницу.

https://simplepars.top/tools/view_headers.php


Отключаете кеширование в модуле, и начинаете настраивать и слать запросы. В коде вы будете видеть данные которые модуль отправляет.
Так же там будет видно ip от которого работаете.

Спойлер

kiA6ecb.png

 

Надіслати
Поділитися на інших сайтах

6 минут назад, sotavip сказал:

если прокис с логином паролем разве он может быть не анонимным

Не логи и пароль определяет анонимность прокси, а то что он отдает сайту донору.

Допустим есть кешируюший прокси который используют для оптимизации интернета на предприятию. И выйти можно в нет только через неге.
И тогда данный прокси будет под паролем, и будет прозрачным поскольку он оптимизации трафика.

 

9 минут назад, sotavip сказал:

вопрос пока решен отключением в настройках браузера Отправлять User-Agent

пока будем без user agent  использовать

интересно почему так

Это самый первый параметр к которому может прочесть донор.
И кстати отключение его насколько не известно как раз дает повод сайтам усомнится что с ними общаеться обычный браузер.

Надіслати
Поділитися на інших сайтах

Обновление v3.1_beta

Довольно крупное обновления с новыми ништячками. :-o

 

Добавлена вкладка Кеш донора.
 

Спойлер

oLJfMAL.png


Теперь вы можете не только спарсить данные, но и закешировать себе страницы сайта донора. На будущее :wink:
Может показаться что это какая то чепуха, но сейчас я попробую рассказать весь потенциал использования кеша в модуле SimplePars!

 

Сценарии использования.
Допустим вам нужно спасрить и загрузить 10 000 страниц донора.

Вы все настроили и благополучно спарсили, после чего обнаружили что забыли включить парсинг атрибутов, что делать ?
Раньше вы настраивали атрибуты и начинали парсить заново, а это нагрузка на сайт донор, да и на ваш хостинг. Но что более страшно это возможность попасть под санкции сайта донора. Быть забаненым за аномальную активность из за такой чипухи как забыл включить парсинг, или не проверил границу парсинга довольно досадно.

Теперь вы можете включить кеширования и запустить парсинг, модуль будет не только парсить сайт донор и добавлять вам товары в магазин он паралельно будет записывать все спарсенные страницы сайта донора отдельную папку. В случаи если вам нужно будет что то перепарсить вы можете спокойно запускать процесс обновления в пять потоков без паузы парсинга главное не забыть включить использования кеша.
В данном случаи модуль уже не будет обращаться на сайт донор, он будет работать автономно используя заранее закешированные страницы. :cool:

Что
это значит ?
1. Вы не создаете дополнительную нагрузку на сайт донор и при повторном парсинге вероятность попасть в бан равна 0!!!!
2. Скорость повторного парсинга с использованием кеша ++++++++++, поскольку вы уже не делаете запросы на сайт долнор вы используете файлы которые уже у вас.
3. Исходя из первого пункта, максимум потоков, и никакой паузы. Главное что бы ваш хостинг выдерживал нагрузку :)

 

Это первая реализация это страницы так что не судите строго, а так же в обязательном порадке в ветке модуля можете писать ваши идеи по развитию этого направления в модуле.
Ставьте лайк кому идея нравится, ну и пишите если что то не так :wink:

На данный момент доступны следующие возможности работы с кешем в модуле SimplePars
Не использовать кеш - В этом случаи модуль не будет ничего кешировать. И вообще работать без кеша.
Создавать/Использовать кеш если есть - В этом режиме модуль будет использовать файлы кеша если они есть, если нет то будет парсить сайт и параллельно создавать кеш на будущее.
Парсить и обновлять кеш - В данном режиме модуль будет парсить сайт донор и обновлять файлы кеша несмотря на то есть они у вас или нет.
 

Немного об новой странице Кеш донора
 

Спойлер

Q2PW4Mx.png

 

Так же на странице Кеш донора можно запустить парсинг который будет делать только одно, парсить страницы донора и складывать их у вас для дальнейшей работы.
Кстати хороший вариант если нету времени настроить парсинг и нужно уходить, запускаете парсинг модуль сложит все страницы, а когда у вас появится время настроить границы вы запустите загрузку в магазин с файлов кеша. А сам парсинг можете запустить в один поток с паузой и уйти куда то. Главное не закрывать страницу браузера.

1. Стандартные кнопки парсинга, остановки, сохранения и обновления.
2. Здесь модуль сообщает сколько занимает файлы кеша донора. Обратите внимание что страницы кешируються отдельно на каждый проект.
3. Нажав на эти ссылки у вас откроется новое окно в браузере с этой страницей сайта донора.
4. Сообщает есть ли у модуля файл кеш этой ссылки.
5. При нажатии на эти ссылки у вас откроется новая вкладка с страницей модуля настроек границы парсинга, с загруженным кодом.
6. При нажатии на эти ссылки у вас откроется новая вкладка с страницей модуля пред просмотр пасринга в ИМ с загруженными данными этой страницы.
7. При нажатии на эти ссылки у вас откроется новая вкладка с страницей модуля пред просмотр пасринга в CSV с загруженными данными этой страницы.
8. Указана дата и время когда модуль создал этот файл кеша.
9. Очистка директории со всеми страницами кеша.
 

На одну странице пред просмотра файлов кеша загружается только 1000ссылок. Если у вас в модуле их больше тогда вам будет доступна пагинация для перехода.
 

Спойлер

HZVaDz3.png

 

Поскольку я думаю использования кеша платно войдет в наш мир я добавил напоминания о том что модуль в данный момент показывает вам страницу из кеша.


 

Спойлер

HSKNZxQ.png

 

В этом напоминании вы так же можете видеть дату создания кеша, и если информация для вас не актуально нужно будет либо удалить кеш либо парсить без него.
То же самое касается логов, модуль будет вам и в логах напоминать что парсинг идет из файлов кеша.
 

Спойлер

1fi3LpV.png

 

Выбор режима работы кеша происходит либо на странице настройки парсинга, либо в настройках браузера.
Дальше разнесу на каждую страницу где запускается парсинг.

Недостатки кеша.
Недостаток один это использование дискового пространства под хранения страниц сайта донора.

В связи с этим не используйте кеш в момент сбора ссылок!!! Потому что модуль будет кешировать и все страницы которые он парсит в момент сбора ссылок.
Получится сильно много ненужного кеша, ну если вы это не делаете осознано что бы экспериментировать с сбором ссылок.

 

По поводу кеша на этом все. Жду ваши лайки, предложения по развитию данного направления. :oops:

 

Другие изменения в модуле.

Внимательные уже заметили на скриншотах ссылку в коде сайта. :wink:

Спойлер

2FPgl4o.png

 

Теперь в код сайта модуль в самый верх будет добавлять ссылку по которой был произведен запрос парсинга.
Ссылка находится между тегами url /url (в квадратных ковычках)
Что позволяет вам создавать границу парсинга ссылки на товар и работать с ней через поиск замену, к примеру если хотите создать уникальный артикул для товара используя хеш функцию + ссылку на товар. Я хоть и против этого но потребность в этой возможности просто колоссальная со стороны вас моих пользователе. :)

 

Новый алгоритм преобразования в поиск замене, который должен избавить нас от артефактов в пред просмотре.

Было

Спойлер

DmrGsoE.png


Стало
 

Спойлер

PEy7cly.png


Это было долго моей головной болью, и думаю это еше не конец вопроса кодировок. Но я становлюсь ближе к полному решению этого вопроса.
 

В архив с моделем добавленна папка test_project в которой лежит фаил импорта с настройками для всех новичков которые хотят увидеть как настраивает проект.

 

Незабываем выполнять /inst.php

 

На этом вроде все. Короче жду от вас новостей. :-o

 

  • +1 6
Надіслати
Поділитися на інших сайтах

2 минуты назад, partshez сказал:

Попробовал КЕШ донора + 5 потоков. Очень даже понравилось!

Это главная награда разработчику :)

Надіслати
Поділитися на інших сайтах

5 минут назад, urchik сказал:

Вот это уже шикарно, надо пробовать. Было пару раз забывал что то парсить и приходилось заново все делать.

Пробуйте, пишите ваши наблюдения.
Сейчас это первая реализация, буду собирать фитбек что бы понять что нужно что нет, и как нужно.
Потом построю стратегию и буду развивать этот функционал в соответствиями с реалиями.

Надіслати
Поділитися на інших сайтах

есть проблема с настройкой проекта на розетку, границы задал, прокси купил но не могу нормально настроить вкладку "браузер" судя по всему розетка очень требовательная в этом плане, может кто то на платной основе донастроить?

SPsetting-7.json

Надіслати
Поділитися на інших сайтах


7 часов назад, dmitriy2506 сказал:

есть проблема с настройкой проекта на розетку, границы задал, прокси купил но не могу нормально настроить вкладку "браузер" судя по всему розетка очень требовательная в этом плане, может кто то на платной основе донастроить?

SPsetting-7.json 6 \u043a\u0411 · 0 downloads

Здравствуйте.
Такие сайты как
https://rozetka.com.ua/

https://ek.ua/

https://hotline.ua/

https://www.olx.ua/

https://prom.ua/


Они очень не хотят что бы их парсили и следят за тем что бы все запросы были похожи на пользовательские. И вам нужно максимально прикинутся обычным юсером, и использовать чистые прокси которые ранние не засветились в попытках парсинг этих ресурсов, что уже само собой доволно сложно.

Лично я за такие проекты не берусь по той причине что это довольно муторное занятия и вы не знаете какой алгоритм работает на сайте доноре, и вам нужно пытатся пока не найдете решение. И каждая неудачная попытка заносит прокси в список подозрения на сайте доноре.
Короче очень муторно, луче исчите других доноров.

Надіслати
Поділитися на інших сайтах

Сейчас давал пояснения работы регулярных выражений, вот тут наверное тоже напишу может кому то будет полезно.

Модуль поддерживает регулярки. О них написано здесь
https://simplepars.top/index.php?page=note&note_id=9

 

И их можно использовать во всех случаях когда вам нужно выбрать текст который невозможно просто зацепится через {skip}
Допустим вот ситуация у нас есть ссылка на фото с водяным знаком.

Спойлер

AKRILOVAYA_VANNA_JACOB_DELAFON_PRESQUILE


Как вы видите ссылка содержит водяной знак.
Я буду показывать примеры без доменного имени что бы на форуме все красиво выглядело.

Вот эта ссылка.
/upload/resize_cache/iblock/17b/1024_720_11176d7cf8df88913cb0a1318817f6fcb/AKRILOVAYA_VANNA_JACOB_DELAFON_PRESQUILE_145KH145_E6045RU_00_BEZ_GIDROMASSAZHA_1.jpg

Если из ссылки вырезать текст который я выделил черным, тогда можно получить ссылку на фот без водного знака.

Спойлер

AKRILOVAYA_VANNA_JACOB_DELAFON_PRESQUILE


Это довольно частое явление, когда водяной знак накладывается непосредственно в момент отдачи клиенту, а на хостинге есть фото чистое. И наша цель его достать.

Тут обычными правилами поиск замена уже не обойтись. Но и пренебрегать ими не стоит, это упрощает жизнь.

Вот этот кусок

resize_cache/
Мы вырежи обычными правилами, поскольку она статична на всех фотографиях и не меняется.
resize_cache/|

А вот эту часть

/1024_720_11176d7cf8df88913cb0a1318817f6fcb/

которая изменяется от фото к фото будем вырезать через регулярные выражения. Хоть текст изменяется, он сохраняет отличительные признаки к которым мы и будем привязывается.
Сразу говорю я не профи по регуляркам, и кто в них шарит может меня поправить, потому что я тоже дилетант в этом деле.

 

Правило будет выглядеть так. Красным формат ввода регулярок в модуле. Зеленым само правило.
{reg[#/[0-9]+_[0-9]+_(.*?)/#]}|/

Теперь пояснение.
На наш человеческий язык это правило звучит так.

 

Найди
/
после которого будет идти любая цифра от 0 до 9
[0-9]
Один и более раз
+
после которого будет идти символ
_
После которого будет идти любая цифра от нуля до девяти
[0-9]
один и более раз
+
после которого будет идти символ
_
И после него может быть все что угодно, сколько угодно раз
(.*?)
Пока не встретит первый слеш
/
И замени всю эту чепуху на слеш
/

И вот как это отработало в правилах поиск замена.

 

Спойлер

pbxWAiK.png


Таким образом мы спокойно можем парсить фото с сайта донора без водяных знаков.

Отвечал на вопрос по регулярным выражениям и решил расширить ответ и написать здесь, я уверен многим будет полезно.
 

Так же приложу руководство по ним.
Внимание если вас пугают такие слова как консоль, код, переменная, то не открывайте спойлер, там ссылка на очень сложные веши, и я бы не хотел что бы вы подумали что модуль весь пропитан этой сложностью.

Нужно понимать что модуль SimplePars просто работать с такими сложными вещами как регулярки. А не такой же сложный как они :)

Ну а если вы хотите уметь управлять поиск заменой на уровне Джедая то вам под спойлер. И можете еше пару лет не вылазить от туда, Джидаем просто так не становятся.

 

  • +1 3
Надіслати
Поділитися на інших сайтах

1 час назад, AlexDW сказал:

для падаванов и не только еще есть такое

https://regex101.com/

Да сам использую и в инструкции к поиск замене добавил эту ссылку.
https://simplepars.top/index.php?page=note&note_id=9

Надіслати
Поділитися на інших сайтах

Переехал на ВПС. В предварительном просмотре обрезает код http://prntscr.com/qw6y7r

Не догружает до конца страницу, как будто указано сколько символов загружать!

Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз

×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.