Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

Помогите пожалуйста настроить сбор ссылок.

Допустим нужно собрать ссылки на телефоны с категории "Мобильные телефоны" отсюда https://ultra.md/ru/category/mobile-phones

Стартовая ссылка https://ultra.md/ru/category/mobile-phones

Шаблон ссылок на товар /ru/product/ но в ссылки на товары попадают не только телефоны.

Как настроить фильтр/шаблон, чтобы собрать ссылки только на телефоны включая пагинацию?

Надіслати
Поділитися на інших сайтах


16 часов назад, Rassol2 сказал:

нет пока такого не будет.
Что бы это сделать нужно где то указывать путь к файлу который по крону будет браться.

Сейчас если честно вообще мало изменений будет в работе модуля.
По крайне мере глобальных.

Сейчас должен второй проект выложить а с 10 ноября я вообще месяца на два потеряю возможность глобально что то делать.
Так что сейчас все разработки приостановлены, изменение в ядро модуля не вношу.

 

👳‍♂️ из серии "хочу все знать" :))

а что за второй проект будет? :)

  • +1 1
Надіслати
Поділитися на інших сайтах


10 часов назад, Malciska сказал:

 

👳‍♂️ из серии "хочу все знать" :))

а что за второй проект будет? :)

Этот проект не будет касаться парсинга.
Последние 2 месяца я максимально перегружен и пока что ничего писать не буду, вдруг не успею выложить.
Единственное что могу сказать, это будет модуль для opencart и это должно быть интересно. Ну мне так кажется )
 

  • +1 2
Надіслати
Поділитися на інших сайтах

13 часов назад, Magnitico сказал:

Помогите пожалуйста настроить сбор ссылок.

Допустим нужно собрать ссылки на телефоны с категории "Мобильные телефоны" отсюда https://ultra.md/ru/category/mobile-phones

Стартовая ссылка https://ultra.md/ru/category/mobile-phones

Шаблон ссылок на товар /ru/product/ но в ссылки на товары попадают не только телефоны.

Как настроить фильтр/шаблон, чтобы собрать ссылки только на телефоны включая пагинацию?

Здравствуйте.
Попробуйте указать Текст начала сбора ссылок на товар.
class="products-list mt-4 lg:mt-0"
И Текст конца сбора
<!-- Livewire

 

Тогда модуль будет собирать ссылки по вашим фильтрам только сблока товаров, и если там будут только товары телефоны, то и ссылки будут только на них.
 

Надіслати
Поділитися на інших сайтах

Всем привет!
Подскажите, кто знает, есть ли разница в нагрузке на сервер и скорости парсинга от количества качаемой информации при парсинге?
Например, если ВСЕ данные парсим(фото, атрибуты, цену, наичие и т.д.) или второй вариант - просто цену и наличие обновляем.
 

Надіслати
Поділитися на інших сайтах


1 минуту назад, Dmitry76 сказал:

Всем привет!
Подскажите, кто знает, есть ли разница в нагрузке на сервер и скорости парсинга от количества качаемой информации при парсинге?
Например, если ВСЕ данные парсим(фото, атрибуты, цену, наичие и т.д.) или второй вариант - просто цену и наличие обновляем.
 

Конечно есть.
В первом варианте, вы не только запрашиваете код страницы но и много мегабайт фото, которые потом сохраняете на диске получаете их имена и записываете в базу.
Что касается других данных не фото, то в аспекте парсинга для донора все равно, он отдает одну и туже информацию.
Но если смотреть на это с вашего сервера, то чем больше данных тем больше процессов.

Выбрать из кода атрибуты, обработать их применить все правила поиск замены.
Определить есть ли эти данные у вас и определить обновлять или добавлять. и так далее.
Больше данных больше работы. Это закономерно.

Надіслати
Поділитися на інших сайтах

2 минуты назад, Rassol2 сказал:

Конечно есть.
В первом варианте, вы не только запрашиваете код страницы но и много мегабайт фото, которые потом сохраняете на диске получаете их имена и записываете в базу.
Что касается других данных не фото, то в аспекте парсинга для донора все равно, он отдает одну и туже информацию.
Но если смотреть на это с вашего сервера, то чем больше данных тем больше процессов.

Выбрать из кода атрибуты, обработать их применить все правила поиск замены.
Определить есть ли эти данные у вас и определить обновлять или добавлять. и так далее.
Больше данных больше работы. Это закономерно.

понял, спасибо

Надіслати
Поділитися на інших сайтах


Нужна подсказка!:?

Есть страница товара: https://bt.rozetka.com.ua/ua/2103617/p2103617/ полученная при сборе ссылок.

С нее взяты названия, цена, описание... Но вот с атрибутами  возникла проблема. На странице товара они обрезаны (в том числе и в коде страницы).

Спойлер

37813649_.JPG.299c403e7bdfff0354d3f49e933a4eba.JPG

 

Спойлер

1517086809_1.JPG.220e58cfd02eeb219a607b05f6984b44.JPG

Соответственно в границу парсинга попадают не все атрибуты. Полный список атрибутов находятся во вкладках и имеют свой url:

https://bt.rozetka.com.ua/ua/2103617/p2103617/characteristics/ - атрибуты

Как можно реализовать переход на эти вкладки со страницы товара?

Пожалуйста, направте в нужном направлении.

 

 

 

 

Надіслати
Поділитися на інших сайтах


1 час назад, aqua_st сказал:

Нужна подсказка!:?

Есть страница товара: https://bt.rozetka.com.ua/ua/2103617/p2103617/ полученная при сборе ссылок.

С нее взяты названия, цена, описание... Но вот с атрибутами  возникла проблема. На странице товара они обрезаны (в том числе и в коде страницы).

  Показать контент

37813649_.JPG.299c403e7bdfff0354d3f49e933a4eba.JPG

 

  Показать контент

1517086809_1.JPG.220e58cfd02eeb219a607b05f6984b44.JPG

Соответственно в границу парсинга попадают не все атрибуты. Полный список атрибутов находятся во вкладках и имеют свой url:

https://bt.rozetka.com.ua/ua/2103617/p2103617/characteristics/ - атрибуты

Как можно реализовать переход на эти вкладки со страницы товара?

Пожалуйста, направте в нужном направлении.

 

 

 

 

Сбор ссылок. Собираете ссылки .../p234567 и .../p234567/характерист...

Вначале посмотрите. Возможно, что по ссылке на ..../характерист  есть вся нужная информация. Если нужны обе ссылки, тогда в Правилах замены ссылок можно преобразовать ссылки товар в ссылку товар/характерист

Змінено користувачем partshez
Надіслати
Поділитися на інших сайтах


1 година назад, aqua_st сказав:

Как можно реализовать переход на эти вкладки со страницы товара?

 

Переход никак, парсить двумя проектами, сначала основную информацию, потом характеристики

Надіслати
Поділитися на інших сайтах

18 минут назад, kostya242 сказал:

Здравствуйте, ссылка на xml отдается в таком формате, можно ли как-то обойти для парсинга xml?

 

image.png.30b88ca76c61fe825e271c9acb3df419.png

Не совсем понятно а в чем проблема то ?
 

Надіслати
Поділитися на інших сайтах

2 минуты назад, aqua_st сказал:

Спасибо, попробую.

Ну или один проект с двумя типами ссылок. Без атрибутов, и с атрибутами.
И действие добавлять обновлять, когда будет попадаться ссылка с атрибутами и действие обновить атрибуты будет обновлять в товаре.

Надіслати
Поділитися на інших сайтах

Обновление v4.8-4_beta

Сбор ссылок.
Добавлена возможность собирать ссылки из xml выгрузки.
Ссылки собираются из тегов <url></url>

 

Парсинг в ИМ

 

Изображения товара
При парсинге фото в формате webp добавлена возможность автоматически преобразовывать фото в формат png
Данный формат изображения подойдет для фото без заднего фона.
Внимание, я так же по прежнему не ручаюсь за эту функцию, тут много нюансов. Данная функция предоставляется так как есть.

Опции

Теперь при обновлении опций модуль не будет качать заново изображения для опция, если они были.
Это значит что если у опции не было фото то при обновлении его не получится добавить. Это сделано что бы сократить потребление места на диске.
Раньше при каждом обновлении опции модуль перекачивал фот и тем самым постоянно занимал лишние пространство.

Так же при выборе варианта удалить и создать заново модуль будет удалять опции из товара и удалять с диска все фото привязанные к этим опциям.
 

  • +1 3
Надіслати
Поділитися на інших сайтах

Добрый день.

Подскажите пожалуйста, кто то сталкивался с проблемой:

Warning: mysqli::query(): (HY000/1194): Table 'sr_pars_link' is marked as crashed and should be repaired in D:\OpenServer\domains\OcStore3\system\library\db\mysqli.php on line 19
Fatal error: Uncaught Exception: Error: Table 'sr_pars_link' is marked as crashed and should be repaired<br />Error No: 1194<br />SELECT * FROM sr_pars_link WHERE `dn_id`=1 ORDER BY id ASC LIMIT 0,2000 in D:\OpenServer\domains\OcStore3\system\library\db\mysqli.php:41 Stack trace: #0 D:\OpenServer\domains\OcStore3\system\library\db.php(45): DB\MySQLi->query('SELECT * FROM s...') #1 D:\OpenServer\domains\OcStore3\admin\model\catalog\simplepars.php(245): DB->query('SELECT * FROM s...') #2 D:\OpenServer\storage\modification\system\engine\loader.php(248): ModelCatalogSimplePars->ViemGrab(1) #3 D:\OpenServer\domains\OcStore3\system\engine\proxy.php(47): Loader->{closure}(Array, Array) #4 D:\OpenServer\domains\OcStore3\admin\controller\catalog\simplepars.php(0): Proxy->__call('ViemGrab', Array) #5 D:\OpenServer\storage\modification\system\engine\action.php(79): ControllerCatalogSimplePars->grab() #6 D:\OpenServer\domains\OcStore3\admin\controller\startup\router.php(26): Action->execute(Object(Registry), Array) #7 D:\OpenServer\s in D:\OpenServer\domains\OcStore3\system\library\db\mysqli.php on line 41

На локальном сервере, добавил проекты, произвёл настройки.
запустил парсинг, и видимо что то случилось в моё отсутствие, что после этого при редактировании проекта или его создания выдаёт ошибку.

Возможно проект не завершил парсинг и теперь не разрешает продолжать работать.

Надіслати
Поділитися на інших сайтах


У меня ничего подобного никогда не выскакивало.
Сделайте экспорт настроек проектов, затем удалите таблицу sr_pars_link в базе данных и заново выполните инстал.

Ошибка связано с этой таблицей После выполнения inst.php Она Перри создастся, И все должно работать. Если это повторится тогда уже нужно искать причину.

  • +1 1
Надіслати
Поділитися на інших сайтах

1 час назад, Rassol2 сказал:

Сделайте экспорт настроек проектов, затем удалите таблицу sr_pars_link в базе данных и заново выполните инстал.

Да, спасибо, помогло... 

Надіслати
Поділитися на інших сайтах


Добрый день,во вкладке данные при паринге в им ,есть возможности обновлять и не обновлять данные,очень хочеться,чтобы бы вы добавили опции "добавлять в пустые значения"

 

Надіслати
Поділитися на інших сайтах


9 минут назад, yastman сказал:

Добрый день,во вкладке данные при паринге в им ,есть возможности обновлять и не обновлять данные,очень хочеться,чтобы бы вы добавили опции "добавлять в пустые значения"

 

Так ведь есть уже проверка границ.

Надіслати
Поділитися на інших сайтах


Здравствуйте. Есть хорошо адаптированный сайт (изображения в нормальном разрешении грузит только если пользователь нажмет на кнопки навигации или изображения в пагинации) с которого хочется забирать изображения. Манипуляции с итоговой ссылкой на изображение (забранное из изображений пагинации) не дало идеальных результатов (часть изображений нормальные, остальные 404 - ВАЖНО!!! Парсер их считает нормальными и грузит пустоту). Вопрос в том - Можно ли указывать парсеру не забирать ПУСТЫЕ изображения? Реально ли прописать условие на нажатие кнопок навигации и последовательную загрузку изображений?
Код одного из изображений в пагинации (Разрешение изображения 100х100 - не подходит)

<div class="owl-item active" style="width: 106.667px; margin-right: 20px;">
  <a href="javascript:void(0);" class="image-wrapper js-slide active" data-index="0" data-color-group="be629a1a71f8e5d89366067161b60a0e">
  <img src="/upload/resize_cache/products/fe7/560/fe7560a635c711eabba754bf64fc91d5/main/105_75_1/fe7560a6-35c7-11ea-bba7-54bf64fc91d5_1a773af6-9b50-11ea-bbaa-54bf64fc91d5.jpeg" data-src="/upload/resize_cache/products/fe7/560/fe7560a635c711eabba754bf64fc91d5/main/105_75_1/fe7560a6-35c7-11ea-bba7-54bf64fc91d5_1a773af6-9b50-11ea-bbaa-54bf64fc91d5.jpeg" class="lazyload" alt="Кровать Berlin Boxspring Standart" title="Кровать Berlin Boxspring Standart" data-pagespeed-url-hash="2266998523" onload="pagespeed.CriticalImages.checkImageForCriticality(this);">
  </a>
</div>

Код окна вывода. 

<div class="zoomContainer" style="transform: translateZ(0px); position: absolute; left: 347.5px; top: 401px; height: 510px; width: 680px; overflow: hidden;">
  <div class="zoomLens" style="background-position: -828px -561.882px; float: left; border: 4px solid rgb(255, 255, 255); width: 200px; height: 200px; background-repeat: no-repeat; position: absolute; background-image: url(&quot;/upload/products/fe7/560/fe7560a635c711eabba754bf64fc91d5/main/fe7560a6-35c7-11ea-bba7-54bf64fc91d5_1a773af6-9b50-11ea-bbaa-54bf64fc91d5.jpeg&quot;); left: 558px; top: 370px; display: none;">&nbsp;</div>
  <div class="zoomWindowContainer" style="width: 400px;">
    <div style="z-index: 999; top: 0px; left: 680px;" class="zoomWindow">&nbsp;</div>
  </div>
</div>

Правила поиска и замены (часть изображений есть, часть 404)

.pagespeed{skip}.jpg|
/resize_cache|
/main/{skip}/x|/main/

Пример лога из парсера (ссылки из абсолютных перевел в относительные сам только для форума)

2021-10-20 10:03:58| Парсинг : УСПЕШНЫЙ ЗАПРОС  | Код ответа [200] Ссылка | /catalog/krovati/product/krovat-plain/160-200-ekokozha-korichnevyy/
2021-10-20 10:03:58| ->[ИЗОБРАЖЕНИЕ] : Изображение НЕ НАЙДЕНО. Ответ сервера [404] Ссылка | /upload/products/617/c83/617c83d64f1611eabba854bf64fc91d5/main/105_75_1/617c83d6-4f16-11ea-bba8-54bf64fc91d5_d28baadb-f266-11ea-bbab-54bf64fc91d5.jpeg

Ссылку на сайт донор могу прислать в ЛС.

Screenshot_1.jpg

Змінено користувачем superslayer
Надіслати
Поділитися на інших сайтах


Здравствуйте!

Почему-то не парсится код товара с сайта, а устанавливается ID по порядку

view-source:https://ultra.md/ru/product/p610-tab-s6-lite-wf-64-gray

 

2021-10-20_20-26-40.jpg

Змінено користувачем Magnitico
Надіслати
Поділитися на інших сайтах


Подскажите , кто парсит xml фиды через simple ?
Как у вас обстоят дела с фидами где идёт общий идентификатор по group id ?
Я у автора заказал доработку , чтобы он дубли по group id отсеивал, получилось сократить время на обход фида с 40 до 10 минут , но возникла проблема с обновлением опций
Если убрать дубли ссылок товаров , то опция так же убирается
В итоге единственное решение вернуть в парсинг все ссылки.

Кто как обновляет остатки по xml ?

Надіслати
Поділитися на інших сайтах


@yastman С теми прайсами что я сталкивался, group id это идетификатор товара, где товар идет как опция. В таком случае используется модуль от Аваро

Надіслати
Поділитися на інших сайтах

Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.