Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

44 минуты назад, hippvik сказал:

Очень жаль. В последние время в основном официальные сайты поставщиков  делают именно такие сайты. И очень удобно на этих сайтах совпадают артикула с артикулами в прайс листе.На неофициальных сайтах интернет магазинах твориться кавардак  с артикулами итд.

Здравствуйте.
Все правильно вам написал @Kiyoshi
На практике мой модуль не сможет разобрать и спарсить такой сайт. Поскольку все данные получаются при помоши аякс запроса.
(пока что ;-))

но поскольку товаров на сайте  у вас мало, можно выдернуть все ajax ссылки и парсить их спокойно как обычную ссылку.

то есть по факту я не могу сказать что мой модуль способен обработать подобную структуру сайта. Но на практике конкретно ваш случай можно спарсить.
К примеру вот ссылка на товара через ajax которую модуль спокойно может парсить.
https://sanbriz.com/products/asti.html?ver=1.117

Надіслати
Поділитися на інших сайтах

11 минут назад, Rassol2 сказал:

Здравствуйте.
Если вы выберите действие обновить.
тогда модуль будет парсить ссылки что есть в списке. Получать их идентификатор и сравнивать с товаром у вас в магазине. Если совпадает то обновит. Если нет пройдет мимо.

Если обновить и добавить. Тогда модуль найдет товары которые есть у вас в магазине и обновит, те которые не найдет то добавит.

В вашем случаи как я понял нужно конкретно действие обновлять.

Ок, спасибо за помощь

Надіслати
Поділитися на інших сайтах


3 минуты назад, stal13 сказал:

Ок, спасибо за помощь

не за что рад был помочь.

Надіслати
Поділитися на інших сайтах

Добрый вечер !Вот не получается спарсить фото. Вроде бы ссылку на фото извлекаю, но она не отображается при "парсинге в ИМ" . ЛОГИ  и шаблон настроек прилагаю. Версия 2,8,5

SPsetting-534 (1).json simplepars_id-534.log

Надіслати
Поділитися на інших сайтах


4 минуты назад, hippvik сказал:

Добрый вечер !Вот не получается спарсить фото. Вроде бы ссылку на фото извлекаю, но она не отображается при "парсинге в ИМ" . ЛОГИ  и шаблон настроек прилагаю. Версия 2,8,5

SPsetting-534 (1).json 4 \u043a\u0411 · 1 download simplepars_id-534.log 3 \u043a\u0411 · 1 download

Судя по файлу логов у вас лишний перенос строк в ссылке.
В следующих версиях модуля модуль по умолчанию такие веши будет фиксить.

В вашем случаи стоит просто добавить правило в фото удалить все переносы строк.
правило добавить в поиск замену в границу парсинга фото.
4njqYbR.png

Надіслати
Поділитися на інших сайтах

Здравствуйте. 

В вашем модуле обязательно сначала нужно с донора парсить ссылки, или можно уже свои ссылки, которые я парсил парсером,  на товары указывать ?

Надіслати
Поділитися на інших сайтах


17 минут назад, vadimlepin сказал:

Здравствуйте. 

В вашем модуле обязательно сначала нужно с донора парсить ссылки, или можно уже свои ссылки, которые я парсил парсером,  на товары указывать ?

можно свои ссылки не обязательно парсить.

Вот сюда их записываете и жмете сохранить.
 

Спойлер

2y42ZAt.png

 

Надіслати
Поділитися на інших сайтах

Кто следит за развитием модуля видел что некоторое время назад я выложил инструкцию по работе с прокси.
Саму функцию я еше не выложил а только описал ее.
Так вот после публикации этой заметки я получил много идей по реализации функционала, а самое главное услышал много конструктивной критики.
За что все вам спасибо  :wink:

Собственно выслушав переделал немного чекер, соответственно и переписал инструкцию.
Инструкция доступна по ссылке - https://simplepars.top/index.php?page=note&note_id=13
Кому интересно можете пойти и перечитать, но все мы люди занятые по этому сэкономлю время тем кто уже читал и выложу кусок который изменился.

Прокси чекер

9QAaG6i.png

В данном чекере вы можете загрузить в список сколько угодно проксей и запустить их проверку.
Модуль будет брать по очереди каждый прокси и проверять его по вашим настройкам.

На данный момент модуль умеет отсеивать по следующим параметрам.

  1. Рабочий не рабочий proxy - рабочий прокси это то который присылает ответ на запрос :)
  2. Время соединение с сайтом через прокси. - Время за которое мы должны успеть соединится с сайтом донором
  3. Общее время выполнение запроса через прокси. - время за которое мы должны получить ответ от сайта донора
  4. Проверка на работу с сайтом донором - Здесь мы проверяем что бы прокси сервер не был заблокировал на сайте доноре который вы хотите парсить. Поскольку бывает так что даже платные прокси сервера уже забанены на большинстве ресурсов и их использование невозможно.

Принцип работы чекера.

Для того что бы чеке мог проверить работоспособность прокси вам необходимо заполнить два поля.

  1. Ссылка на сайт донор - Ссылка на страницу сайта донора для которого вы хотите проверить работоспособность прокси.
  2. Проверочный текст - Кусок кода который точно есть на странице. Хорошо подойдет артикул или код товара.

Принцип работы простой, чекер будет брать по очереди один прокси из списка и через него обращается к странице указанной в поле Ссылка на сайт донор. Модуль получит спарсенную страницу и попробует найти на ней текст который вы написали в Проверочный текст если данный текст будет найден то такой прокси модуль считает проверенным и запишет его в список проверенных.


Напомню всем что этих функция пока еше нету в релизе.
Выкладываю для того что бы услышать ваше мнение.
Так же все кто пишет по поводу прокси мне в личку, поймут почему сроки выхода этих функций затягиваются. Приходится переделывать все по несколько раз :)

  • +1 1
Надіслати
Поділитися на інших сайтах

Поскольку обсуждение функций прокси чекера оказались довольно продуктивным я продолжаю выкладывать заметки по будущим функциям вкладки Браузер

 

Общие настройки браузера
https://simplepars.top/index.php?page=note&note_id=14
 

На данный момент базовый функционал проходит тестирование, и устранение явных багов и недочетов.

  • +1 1
Надіслати
Поділитися на інших сайтах

Работа с Cookie или как парсить с авторизацией.


Продолжаю выкладывать заметки по новому функционалу.
https://simplepars.top/index.php?page=note&note_id=15

  • +1 1
Надіслати
Поділитися на інших сайтах

Список User-Agent

Продолжаю выкладывать заметки по новому функционалу.
https://simplepars.top/index.php?page=note&note_id=16

 

  • +1 1
Надіслати
Поділитися на інших сайтах

Отправка собственных звголовков запроса (Headers)

https://simplepars.top/index.php?page=note&note_id=17

 

  • +1 1
Надіслати
Поділитися на інших сайтах

Здравствуйте, а есть возможность обновления по крону?
На данный момент нету. Крон ещё в разработке.

Отправлено с моего Pixel через Tapatalk

Надіслати
Поділитися на інших сайтах

Обновление 2.9_beta

В данной версии сделано много изменений в логике модуля. Всего уже и не назову. :) 

1. Добавлена возможность парсить через прокси сервера. В связи с этим переписана логика многих частей модуля.
2. В пред просмотре кода, при настройке парсинга добавлен вывод ошибки если страница не спарсилась.
KMt7r0j.png

3. В системе логов еше больше информации об происходящем.

2019-10-06 06:51:38| Парсинг : ОШИБКА запроса | Прокси = [180.180.8.34:8080] | Код ошибки = 28 | Текст ошибки = connect() timed out! | Ссылка - https://svetavto.com.ua/index.php?route=product/product&path=59&product_id=2322
2019-10-06 06:51:38| Парсинг : ОШИБКА запроса | Прокси = [104.28.5.68:80] | Код ошибки = 56 | Текст ошибки = Received HTTP code 400 from proxy after CONNECT | Ссылка - https://svetavto.com.ua/index.php?route=product/product&path=59&product_id=2322
2019-10-06 06:51:48| Парсинг : ОШИБКА запроса | Прокси = [103.42.162.58:8080] | Код ошибки = 35 | Текст ошибки = timed out before SSL handshake | Ссылка - https://svetavto.com.ua/index.php?route=product/product&path=59&product_id=2322

 

4. Теперь если модуль не получил данные с страницы он будет повторять несколько раз попытки. После несольких попыток если страницу не получил от даст ответ. На каждый запрос будет отдельная строка в логах.

Основные новшества.
 

Добавлена вкладка Браузер!

Спойлер

tDQS38c.png

 

 

На данной вкладке вы настраиваете как модуль будет делать запросы к сайту донору.

Основные возможности вкладки браузер в модуле SimplePars

 

Общее

1. Использование прокси при парсинге.
2. Включение выключение кеширования страниц в пред просмотре.
3. Настройка таймаутов при запросе.
4. Включение заголовков в результат парсинга.
5. Работа с куки!!! (Первые шаги в парсинге с авторизацией!)

6. Работа указание юсер агента
7. Использование собственных заголовков в парсинге.

 

Прокиси

Спойлер

BSBXZdX.png


1. Добавление прокси серверов.
2. Работоспособность прокси сервера на сайте доноре.


С релиза SimplePars 2.9 вы можете.
1. Парсить в обход блокировок.
2. Парсить сайты с авторизацией
3. Прикидывается мобильными устройствами для более комфортного парсинга.
4. Тонко настраивать запросы.

Основные ссылки.
Работа с браузером
https://simplepars.top/index.php?page=note&note_id=14

 

Работа с куки, и авторизацией на сайте доноре
https://simplepars.top/index.php?page=note&note_id=15
 

Информация связанная с настройками запросов
https://simplepars.top/index.php?page=note&note_id=16

https://simplepars.top/index.php?page=note&note_id=17

 

Работа с прокси, проверка прокси на пригодность для парсинга
https://simplepars.top/index.php?page=note&note_id=13

 

При обновлении обязательно нужно выполнить /inst.php
 

Жду ваши отзывы комментарии. А пока приступаю к формированию стабильной сборки. :)

  • +1 3
Надіслати
Поділитися на інших сайтах

Вечер добрый, осваиваю модуль, возникло несколько вопросов.

 

Ситуация №1.

Столбы 1-2-3 - это перечень категорий магазина. В столбе №4 находится, допустим артикул. При этом, если попадается 2-ух уровневая категория, то в столбец №3 попадает артикул, следовательно, структура файла сбивается.

Подскажите, как это вылечить?

 

Ситуация №2.

Спарсил 3 фотографии, в качестве разделителя {csvnc}.

В поиск\замена генерируется такая структура: photo1.jpg{csvnc}photo2.jpg{csvnc}photo3.jpg

При добавлении в начало домена, соответственно, получается: domain.com/photo1.jpg{csvnc}photo2.jpg{csvnc}photo3.jpg

Подскажите, как это вылечить? Надо чтобы у каждой фото вставлялся домен.

Надіслати
Поділитися на інших сайтах


16 минут назад, zhumasds сказал:

Ситуация №1.

Столбы 1-2-3 - это перечень категорий магазина. В столбе №4 находится, допустим артикул. При этом, если попадается 2-ух уровневая категория, то в столбец №3 попадает артикул, следовательно, структура файла сбивается.

Подскажите, как это вылечить?

вот тут сложно понять проблему. Могу не так вас понять. Но такие случаи можно отрезать в повторяющихся границах.

Если артикул всегда в конце. Тогда в блоке категорий нужно вырезать всегда последнее вхождение.
Вот эти настройки вам помогут.
 

Спойлер

wqYNs4b.png

 

16 минут назад, zhumasds сказал:

Ситуация №2.

Спарсил 3 фотографии, в качестве разделителя {csvnc}.

В поиск\замена генерируется такая структура: photo1.jpg{csvnc}photo2.jpg{csvnc}photo3.jpg

При добавлении в начало домена, соответственно, получается: domain.com/photo1.jpg{csvnc}photo2.jpg{csvnc}photo3.jpg

Подскажите, как это вылечить? Надо чтобы у каждой фото вставлялся домен.

На это не обращайте внимание. В пред просмотре добавить в начало и в конец показывает неправильно.
Поскольку пред просмотр в поиск замне считает весь текст в блоке Исходный текст как одно значение.
Он не понимает что там повторяющаяся граница. И добавляет только в начало.

так сделано потому что вы можете вручную вбивать туда текст.
Но в реальности он добавляет в начало и конец КАЖДОГО ЭЛЕМЕНТА. Это вы можете увидите в пред просмотре парсинга в ИМ или CSV
 

Надіслати
Поділитися на інших сайтах

2 минуты назад, Rassol2 сказал:

вот тут сложно понять проблему. Могу не так вас понять. Но такие случаи можно отрезать в повторяющихся границах.

Если артикул всегда в конце. Тогда в блоке категорий нужно вырезать всегда последнее вхождение.
Вот эти настройки вам помогут.

 

Смотрите, ячейки 1-2-3-4.

Строка №1: Инструмент - Пилы - Ручные - Артикул

Строка №2: Инструмент - Бензопилы - пустая ячейка- Артикул

 

По факту, вместо пустой ячейки там стоит Артикул, то есть он сместился из 4 ячейки в 3, сломав всю структуру(((

 

ПО ситуации №2 спасибо, понял)

Надіслати
Поділитися на інших сайтах


14 минут назад, zhumasds сказал:

Ситуация №2.

Спарсил 3 фотографии, в качестве разделителя {csvnc}.

В поиск\замена генерируется такая структура: photo1.jpg{csvnc}photo2.jpg{csvnc}photo3.jpg

При добавлении в начало домена, соответственно, получается: domain.com/photo1.jpg{csvnc}photo2.jpg{csvnc}photo3.jpg

Подскажите, как это вылечить? Надо чтобы у каждой фото вставлялся домен.

Вот пример такой ситуации, для понимания.

В пред просмотре. Модуль добавляет в начало и конец всего блока исходного текста.
 

Спойлер

RPopmh3.png

Поскольку тут модуль не знает что за текст в исходном блоке.

Но вот в пред просмотре парсинга в CSV все выводится правильно.
 

Спойлер

W50kIrb.png

 

Надіслати
Поділитися на інших сайтах

2 минуты назад, zhumasds сказал:

 

Смотрите, ячейки 1-2-3-4.

Строка №1: Инструмент - Пилы - Ручные - Артикул

Строка №2: Инструмент - Бензопилы - пустая ячейка- Артикул

 

По факту, вместо пустой ячейки там стоит Артикул, то есть он сместился из 4 ячейки в 3, сломав всю структуру(((

 

ПО ситуации №2 спасибо, понял)

Скиньте 2 ссылки на разные ситуации и я посмотрю как быть. Потому что это сейчас больше похоже на гадание на кофейной гуше.

Надіслати
Поділитися на інших сайтах

Обновление 2.9-1_beta

Исправление одной ошибки при добавления в список прокси серверов. Спасибо @Kiyoshi за найденный недочет

Настройка парсинга

Спойлер

6Biylc7.png


Изменил оформление кнопки включения и отключения пред просмотра.
Добавил возможность отключить подсветку синтаксиса. (Отключив подсветку синтаксиса страница будет грузится гораздо быстрее! )

 

Как будет выглядеть страница если все включено.

Спойлер

PWAKibr.png


Как будет выглядеть страница когда все отключено.

Спойлер

FfO8ZX2.png

По умолчанию все включено.

Полезная информация

Подготовил специальную ссылку для настройки браузера.

Я думаю довольно сложно производить все настройки браузера и держать в голове что браузер будет отправлять на сайт донор.
Для этого подготовил специальную ссылку обращаясь к которой на странице настройки парсинга вы получите полную информацию о том какие данные модуль отправляет.

Инструкция к ссылке :)

Да да такое тоже бывает.
Поскольку в модуле используется кеширования страниц в пред просмотре, то вам нужно отключить кеш в пред просмотре что бы получить актуальную информацию по каждому запросу.
Переходим в Настройки браузера и выбираете не кешировать страницы. И жмете сохранить.
K3Y0fzp.png

Это важно, поскольку если не отключить, то модуль закеширует страницу после первого запроса. И в течении 3 часов не зависимо от настроек браузера будет отдавать один и тот же результат.

После этого переходите на вкладку Настройки парсинга и загружаете эту ссылку в пред просмотр.
https://simplepars.top/tools/view_headers.php

В пред просмотре кода вы получите примерно такой ответ.

lutDG4t.png

Здесь вы можете видеть какие заголовки отправляет модуль. Какой User-Agent использует , какие куки были отправлены. И какой ip используется (Важно когда используете прокси ).
Это очень удобно в процессе настройки браузера для серьезного проекта.

 

При обновлении выполните /inst.php

  • +1 1
Надіслати
Поділитися на інших сайтах

5 минут назад, zhumasds сказал:

image.thumb.png.b0cd725fe2ab24acb0ef40a19b9944fe.png

Вот, на скриншоте видно, что если фотографий спарсилось много, то категории были равномерно сдвинуты вправо. Как от этого избавиться?

В парсинге в csv никак.
поскольку модуль берет одну ссылку и раскладывает все по колонкам. Затем берет следующие. И когда модуль раскладывает первую он не знает сколько будет фото во второй третей и так далее.

как вариант изменить разделитель {csvnc} на символ ~


Тогда все данные будут в одной колонке и разделены символом ~ затем через стандартную фунцию экселя.
Данные -> Текст по столбцам -> С разделителем ~
И эксель разделит одну колонку с фото на много колонок. Затем смотрите в какой колонке последнее, и вставляете туда категории. И повторяете тоже действие с категориями.
Чисто физически такой вопрос не решить если заведомо неизвестно количество фото и категорий у каждой ссылки.

Надіслати
Поділитися на інших сайтах

Понял, с фото действительно сложно предугадать, сколько колонок нужно.

Чисто как идея: а нельзя ли у повторяющихся границ, при добавлении {csvnc} указывать, какое количество столбцов отвести для повторений в рамках этой границы?

Допустим, экспериментальным методом я пришел к тому, что у меня максимум - 3 уровня категорий, и возможность указывать это существенно решило бы мою проблему)))

Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.