Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

5 минут назад, lololod3 сказал:

Да есть какой то косяк, должно работать, попробую ближайшие время разобраться и выпустить фикс.

Надіслати
Поділитися на інших сайтах

11 минут назад, Rassol2 сказал:

Я не совсем понял вашу задумку. Но если вы написали что выше правильная структура.
То вот я вам дописал правила к вашим, поправил границы и вот результат.

Правда тут не понятно. :)

  Скрыть контент

9rMiJQ2.png


вот тут виднее будет как были поделен текст.
 

  Скрыть контент

Yp7HlmX.png


Не знаю зачем такое но вот файл настроек.
Можете загрузить настройки в новый проект и изучить.
не надо загружать их по верх ваши, не уверен что это то что нужно.
SPsetting-486.json

) Не совсем так, поясню... Вы взяли не тот блок у донора. Вы взяли блок Краткие характеристики https://prnt.sc/123802u ,с ним я справился, и планирую добавить в Описание. В проекте он называется @ Краткие характеристикиV2. А вопрос мой в блоке "Характеристики и спецификации" у сайта донора, они ниже https://prnt.sc/123847i. То есть все, что я писал выше, в этой связи, было касаемо этого блока. В проекте это простая граница парсинга Атрибуты..

Надіслати
Поділитися на інших сайтах


1 час назад, lololod3 сказал:

Доброго времени суток!
Подскажите пожалуйста.
Собираю ссылки с сайта
https://elmantrade.ru/
Необходимы ссылки определенного производителя.
https://elmantrade.ru/countries-brands/kerama-marazzi.html
В Шаблон ссылок очереди прописываю ?curPos=
По итогу парсер не ищет ссылки)))
Что может быть не так?

Собственно ситуация интересная. В модуле ошибки нет, но проблема есть.
Суть такова, эта страница весит 3.7мб и содержит 67102 строки.
И по непонятной мне причине php не может собрать информацию со всей страницы, может какой то буфер переполняется. 
Если вырезать из середины страницы код и сделать ее меньше то php получает все сылки с страницы.

А тут нужно изучить с чем это связано и где можно на это повлиять. На крайняк напишу вам что поправить в модуле что бы он вырезал из этого сайта ненужные куски перед сбором ссылок.

Надіслати
Поділитися на інших сайтах

14 минут назад, Rassol2 сказал:

Собственно ситуация интересная. В модуле ошибки нет, но проблема есть.
Суть такова, эта страница весит 3.7мб и содержит 67102 строки.
И по непонятной мне причине php не может собрать информацию со всей страницы, может какой то буфер переполняется. 
Если вырезать из середины страницы код и сделать ее меньше то php получает все сылки с страницы.

А тут нужно изучить с чем это связано и где можно на это повлиять. На крайняк напишу вам что поправить в модуле что бы он вырезал из этого сайта ненужные куски перед сбором ссылок.

Спасибо большое)
Жду тогда инструкцию.

Надіслати
Поділитися на інших сайтах


1 час назад, Mixxxa163 сказал:

"У вас тут не характеристики это по сути описания." - на сайте доноре да, я из них хочу сделать атрибуты и скопировать в фильтр.

Верно, Красным название атрибута зеленым значения. Значений для атрибута может быть несколько и между ними должна быть запятая(для дальнейшего копирования в ocfilter) как и писал выше.

И еще, на сайте донора в блоке Характеристики и спецификации, откуда я создал границу Атрибуты, есть вкладки https://prnt.sc/1234vvo, означающие в какой среде будет работать прибор. При их открытии, некоторые атрибуты повторяются, некоторые новые с новыми значениями.

В мою границу парсинга Атрибуты они все попали, я проверял. И логичен будет вопрос, а будут ли дубли?..

 

так покажите пример как все должно выглядеть в финале.
 

Надіслати
Поділитися на інших сайтах

8 минут назад, Rassol2 сказал:

так покажите пример как все должно выглядеть в финале.
 

Пожалуйста:

К примеру вот ссылка на страницу донора https://www.ru.endress.com/ru/Tailor-made-field-instrumentation/uroven/FMR20?g.filters=[]

Вот скрин вкладки Характеристики, с созданной карточки на моем сайте, вручную, с аналогичными характеристиками(атрибутами), из блока Характеристики и спецификации сайта донора. https://prnt.sc/1239t2y

Надіслати
Поділитися на інших сайтах


8 минут назад, Mixxxa163 сказал:

Пожалуйста:

К примеру вот ссылка на страницу донора https://www.ru.endress.com/ru/Tailor-made-field-instrumentation/uroven/FMR20?g.filters=[]

Вот скрин вкладки Характеристики, с созданной карточки на моем сайте, вручную, с аналогичными характеристиками(атрибутами), из блока Характеристики и спецификации сайта донора. https://prnt.sc/1239t2y

На будущие луче как я вам пример показал. (хотя в будущем нужно что бы вы сами решали такие задачи.)
А то получается
так вот, есть ссылка на сайт донор, а вот такой результат я хочу.
А будет то что вы хотите в коде или нет, непонятно.

В будущем показываете исходный текст, и показываете что вам нужно на выходе. И мы уже гадаем и составляем правила.
Тут я попробую вам помочь. Но для этого мне нужно потратить колоссальное количество времени изучая страницу донора изучая что вы показали, что бы вообще понять что у нас есть и что нам нужно.

  • +1 1
Надіслати
Поділитися на інших сайтах

@Mixxxa163 Вот.

Настройки, и пред просмотр.
 

Спойлер

Hy13E4p.png


Вот пред просмотр париснга в им.
 

Спойлер

RdO0gRU.png


настройки грани парсинга остались ваши.

Вот правила что я прописал.
 

<div class="eh-external-tech-info-content--body eh-p-v-xs-2 eh-p-t-s--x-small">|{csvnc}
<h5{skip}">|{csvnc}
<{skip}>|
{br}|
  |

 

  • +1 1
Надіслати
Поділитися на інших сайтах

11 минут назад, Rassol2 сказал:

@Mixxxa163 Вот.

Настройки, и пред просмотр.
 

  Скрыть контент

Hy13E4p.png


Вот пред просмотр париснга в им.
 

  Скрыть контент

RdO0gRU.png


настройки грани парсинга остались ваши.

Вот правила что я прописал.
 


<div class="eh-external-tech-info-content--body eh-p-v-xs-2 eh-p-t-s--x-small">|{csvnc}
<h5{skip}">|{csvnc}
<{skip}>|
{br}|
  |

 

Спасибо огромное буду разбираться!...Почему то первый параметр "Принцип измерения", перед Характеристики/Применение не попал в Текст после обработки.

Змінено користувачем Mixxxa163
Надіслати
Поділитися на інших сайтах


15 минут назад, Rassol2 сказал:

На будущие луче как я вам пример показал. (хотя в будущем нужно что бы вы сами решали такие задачи.)
А то получается
так вот, есть ссылка на сайт донор, а вот такой результат я хочу.
А будет то что вы хотите в коде или нет, непонятно.

В будущем показываете исходный текст, и показываете что вам нужно на выходе. И мы уже гадаем и составляем правила.
Тут я попробую вам помочь. Но для этого мне нужно потратить колоссальное количество времени изучая страницу донора изучая что вы показали, что бы вообще понять что у нас есть и что нам нужно.

Да, я все понимаю... но я учусь, я вообще из другой сферы деятельности, и не зная основ html сss для меня это затруднительно, пока. Спасибо Вам.

Надіслати
Поділитися на інших сайтах


2 минуты назад, Mixxxa163 сказал:

Да, я все понимаю... но я учусь, я вообще из другой сферы деятельности, и не зная основ html сss для меня это затруднительно, пока. Спасибо Вам.

Не за что всего доброго.

  • +1 1
Надіслати
Поділитися на інших сайтах

50 минут назад, Rassol2 сказал:

Не за что всего доброго.

Просто если Вы загрузите страницу, о которой я писал изначально 

https://www.ru.endress.com/ru/Tailor-made-field-instrumentation/Flow-measurement-product-overview/promass-f300?g.filters=["endress%3Abusiness-area"]

И сделаете поиск замену Вашими правилами, то получается результат, который я и предугадывал - огромное количество дублей атрибутов, в связи с несколькими вкладками https://prnt.sc/1234vvo. И задача собственно сейчас, как не дублировать атрибуты, а значения объединить в соответствующий атрибут... результат такой https://prnt.sc/123dg0p

Змінено користувачем Mixxxa163
Надіслати
Поділитися на інших сайтах


51 минуту назад, Mixxxa163 сказал:

Просто если Вы загрузите страницу, о которой я писал изначально 

https://www.ru.endress.com/ru/Tailor-made-field-instrumentation/Flow-measurement-product-overview/promass-f300?g.filters=["endress%3Abusiness-area"]

И сделаете поиск замену Вашими правилами, то получается результат, который я и предугадывал - огромное количество дублей атрибутов, в связи с несколькими вкладками https://prnt.sc/1234vvo. И задача собственно сейчас, как не дублировать атрибуты, а значения объединить в соответствующий атрибут... результат такой https://prnt.sc/123dg0p

Я не по этой ссылке делал, а по той в на которую вы скинули скриншот.
Ок посмотрю на эту.

Надіслати
Поділитися на інших сайтах

57 минут назад, Mixxxa163 сказал:

Просто если Вы загрузите страницу, о которой я писал изначально 

https://www.ru.endress.com/ru/Tailor-made-field-instrumentation/Flow-measurement-product-overview/promass-f300?g.filters=["endress%3Abusiness-area"]

И сделаете поиск замену Вашими правилами, то получается результат, который я и предугадывал - огромное количество дублей атрибутов, в связи с несколькими вкладками https://prnt.sc/1234vvo. И задача собственно сейчас, как не дублировать атрибуты, а значения объединить в соответствующий атрибут... результат такой https://prnt.sc/123dg0p

Так у вас тут в описании, при выборе селекторов дублируется описание.
 

Спойлер

U0a32bD.png

 

и вот.

Спойлер

0lpzsVh.png


Выберите один из селекторов, в настройках границ париснга и спарсите его теми же правилами.
У вас просто граница настроена на получения вех, конечно в таком случаи у вас внутри границы много задублированного текста.
 

Надіслати
Поділитися на інших сайтах

4 минуты назад, Rassol2 сказал:

Так у вас тут в описании, при выборе селекторов дублируется описание.
 

  Показать контент

U0a32bD.png

 

и вот.

  Показать контент

0lpzsVh.png


Выберите один из селекторов, в настройках границ париснга и спарсите его теми же правилами.
У вас просто граница настроена на получения вех, конечно в таком случаи у вас внутри границы много задублированного текста.
 

Да, все верно!).. Дублируются атрибуты со значениями, но при переключении селектора, появляются новые, и значения новые, где-то отсутствует большинство, при переключении селектора. Так вот мой вопрос и был в этом, возможно ли из этой границы, настроенной на получение всех атрибутов (в том числе дублирующихся), из всех селекторов, со своими значениями(в том числе дублирующихся) сделать: "Текст после обработки" со всеми атрибутами, без дублей, а в каждый атрибут будет добавлены все значения, тоже без дублей...? 

Надіслати
Поділитися на інших сайтах


Только что, Mixxxa163 сказал:

Да, все верно!).. Дублируются атрибуты со значениями, но при переключении селектора, появляются новые, и значения новые, где-то отсутствует большинство, при переключении селектора. Так вот мой вопрос и был в этом, возможно ли из этой границы, настроенной на получение всех атрибутов (в том числе дублирующихся), из всех селекторов, со своими значениями(в том числе дублирующихся) сделать: "Текст после обработки" со всеми атрибутами, без дублей, а в каждый атрибут будет добавлены все значения, тоже без дублей...? 

Может и можно, но это нужно будет. Но тут нужно много регулярок и сил. Я не уверен что поиск такого ршения стоит этого.
Просто сделайте что бы все атрибуты дублировали с знамениями.
В момент записи в модуль запишет все атрибуты, задублировать в товаре атрибуты не получится.
Модуль создаст атрибут цвет. И запишет его значение.
Затем опять попадается дубль, модуль просто обновить значение цвет. А поскольку это тоже самое то это не страшно.
В конце записи вы получите товар где есть все атрибуты, без дублей.

Можете проверить на одном товаре
Просто приведите все значения к виду Имя{csvnc}Значение пусть даже с дублями.

Надіслати
Поділитися на інших сайтах

8 минут назад, Rassol2 сказал:

Может и можно, но это нужно будет. Но тут нужно много регулярок и сил. Я не уверен что поиск такого ршения стоит этого.
Просто сделайте что бы все атрибуты дублировали с знамениями.
В момент записи в модуль запишет все атрибуты, задублировать в товаре атрибуты не получится.
Модуль создаст атрибут цвет. И запишет его значение.
Затем опять попадается дубль, модуль просто обновить значение цвет. А поскольку это тоже самое то это не страшно.
В конце записи вы получите товар где есть все атрибуты, без дублей.

Можете проверить на одном товаре
Просто приведите все значения к виду Имя{csvnc}Значение пусть даже с дублями.

Вот.. То есть модуль в предпросмотре показывает все атрибуты и значения с дублями https://prnt.sc/123gza0 (если листать ниже, там 5 таких блоков с этими значениями), столько раз, сколько у меня селекторов на странице, и соответственно в созданной границе парсинга Атрибуты - это логично он же парсит весь код в заданной границе. А при парсинге в ИМ из модуля, дубли атрибутов не создаются, а значения добавляются, обновляются, и не дублируются. Правильно понял?

 

Надіслати
Поділитися на інших сайтах


1 минуту назад, Mixxxa163 сказал:

Правильно понял?

Да потому что даже физицески у вас не выйдет создать два атрибута с разными значениями.
Что происходит

Приходит атрибут Цвет
Модуль смотрит есть ли товаре такой атрибут, если нет создает если да, обновляет.

Но дубли не выйдет засунуть, даже если захотите специально.
 

Надіслати
Поділитися на інших сайтах

3 часа назад, lololod3 сказал:

Спасибо большое)
Жду тогда инструкцию.

По вашему вопросу, нет это косяк в регулярном выражении которое исчит в коде ссылки.
И почему то именно на этой сайте оно дало сбой.
Четно говоря немного волнуюсь вносить изменения в эту часть модуля.
Как говорится то что работает луче не трогать, а эта правило работало около двух лет бес сбоев. :)

Так что массово пока вносить не буду, да и претензий не было.
Вам покажу, где подправить.
В файле /admin/model/catalog/simplepars.php
найдите строку.
$reg_url = '#<a.+?href=["\']?([^"\'>]+)["\']?#s';
И замените её на
$reg_url = '#<a[^>]?href=["\']?([^"\'>]+)["\']?#s';

 

Что бы получилось вот так
 

Спойлер

iVP5OKF.png

 

И все заработает.
А я понаблюдаю как себя будет вести это новое правило.
Пока не уверен о добавлении его в продакщин.

Хотя, пока идет бета ветка наверно засуну посмотрю будут ли нарекания.

Надіслати
Поділитися на інших сайтах

8 минут назад, Rassol2 сказал:

Да потому что даже физицески у вас не выйдет создать два атрибута с разными значениями.
Что происходит

Приходит атрибут Цвет
Модуль смотрит есть ли товаре такой атрибут, если нет создает если да, обновляет.

Но дубли не выйдет засунуть, даже если захотите специально.
 

Понял. Короче говоря, атрибуты не будут дублироваться, а их значения будут обновляться, при парсинге в ИМ. Спасибо огромное за помощь! Буду дорабатывать Ваши правила, под эти условия. Надеюсь все получится. 

Надіслати
Поділитися на інших сайтах


Только что, Mixxxa163 сказал:

Понял. Короче говоря, атрибуты не будут дублироваться, а их значения будут обновляться, при парсинге в ИМ. Спасибо огромное за помощь! Буду дорабатывать Ваши правила, под эти условия. Надеюсь все получится. 

не за что.
Удачи.

Надіслати
Поділитися на інших сайтах

1 час назад, Rassol2 сказал:

По вашему вопросу, нет это косяк в регулярном выражении которое исчит в коде ссылки.
И почему то именно на этой сайте оно дало сбой.
Четно говоря немного волнуюсь вносить изменения в эту часть модуля.
Как говорится то что работает луче не трогать, а эта правило работало около двух лет бес сбоев. :)

Так что массово пока вносить не буду, да и претензий не было.
Вам покажу, где подправить.
В файле /admin/model/catalog/simplepars.php
найдите строку.
$reg_url = '#<a.+?href=["\']?([^"\'>]+)["\']?#s';
И замените её на
$reg_url = '#<a[^>]?href=["\']?([^"\'>]+)["\']?#s';

 

Что бы получилось вот так
 

  Скрыть контент

iVP5OKF.png

 

И все заработает.
А я понаблюдаю как себя будет вести это новое правило.
Пока не уверен о добавлении его в продакщин.

Хотя, пока идет бета ветка наверно засуну посмотрю будут ли нарекания.

Попробовал останавливаеться на категориях, и не доходит до товаров) Приходится полученные ссылки на категории добавлять в  Очередь сканирования ссылок , для дальнейшего получения карточек товара

Надіслати
Поділитися на інших сайтах


3 минуты назад, lololod3 сказал:

Попробовал останавливаеться на категориях, и не доходит до товаров) Приходится полученные ссылки на категории добавлять в  Очередь сканирования ссылок , для дальнейшего получения карточек товара

скиньте файл настроек, я через час посмотрю. 

Надіслати
Поділитися на інших сайтах

@lololod3 так же обратите внимание что эта настройка влияет только на сбор ссылок. Из кода.
Убедитесь что у вас нет проблем с фильтрами. 

Надіслати
Поділитися на інших сайтах

11 минут назад, Rassol2 сказал:

@lololod3 так же обратите внимание что эта настройка влияет только на сбор ссылок. Из кода.
Убедитесь что у вас нет проблем с фильтрами. 

 

SPsetting-6.json

Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.