Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

В 14.10.2021 в 08:48, baskinBR сказал:

и созрел вопрос про опции при обновлении:

"Добавить новые и обновить существующие" - означает ли это что модуль уберет те значения опций, которые исчезли у донора?

Отвечаю конкретнее. НЕ ОЗНАЧАЕТ :?

  • +1 1
Надіслати
Поділитися на інших сайтах


Из последних хотелок...

Очень полезная возможность была бы, чтобы при разборе xml можно было бы получать в "Ссылки на товары" не только ссылки вида ....xml, но и реальные ссылки на товар из xml: <url>https://site.com/catalog/product/tovar</url>. Это весьма облегчило бы жизнь тем, кто работает с xml...

Получили бы выбор парсить или с xml или по полученным ссылкам парсить дальше сайт. В чём фишка ? В том, что во-первых можно не собирать ссылки с сайта, в том, что иногда заказчика интересует только реальное наличие, а оно, как правило в xml бывает... Можно ввести поля во вкладке "Обработчик xml", где был бы выбор, какого плана ссылки нужны для работы... Опять же, если теги не так называются, пусть будет выбор полей, где указать можно конкретно. Или даже лучше по умолчанию пусть будет <url>, а если нет - то указать конкретно, что в xml находится...

P.S. В последнее время много приходится работать с сайтами на Битриксе, а там сплошные xml причём не самого лучшего вида... парсить это всё просто жесть...

 

А если пофантазировать...

Сделать выбор вида ссылок не "ИЛИ", а "И" (т.е. чтобы ссылка была вида xml и реальная ссылка под ней), то можно было бы организовать при парсинге выбор откуда брать данные, если в xml их нет, то парсим данные с сайта... Но это чисто теоретические фантазии на тему каким будет SimplePars в далёком будущем... )))

Змінено користувачем Axelenz
  • +1 1
Надіслати
Поділитися на інших сайтах


15 часов назад, Mixxxa163 сказал:

Добрый день, если донор на англ. языке, есть ли варианты как парсить с переводом сразу?

 

Парсер парсит, переводчик переводит. -> С парсером парсите а дальше уже обрабатываете как желаете :)

  • +1 1
Надіслати
Поділитися на інших сайтах


В 16.10.2021 в 20:04, Axelenz сказал:

Из последних хотелок...

Очень полезная возможность была бы, чтобы при разборе xml можно было бы получать в "Ссылки на товары" не только ссылки вида ....xml, но и реальные ссылки на товар из xml: <url>https://site.com/catalog/product/tovar</url>. Это весьма облегчило бы жизнь тем, кто работает с xml...

Получили бы выбор парсить или с xml или по полученным ссылкам парсить дальше сайт. В чём фишка ? В том, что во-первых можно не собирать ссылки с сайта, в том, что иногда заказчика интересует только реальное наличие, а оно, как правило в xml бывает... Можно ввести поля во вкладке "Обработчик xml", где был бы выбор, какого плана ссылки нужны для работы... Опять же, если теги не так называются, пусть будет выбор полей, где указать можно конкретно. Или даже лучше по умолчанию пусть будет <url>, а если нет - то указать конкретно, что в xml находится...

P.S. В последнее время много приходится работать с сайтами на Битриксе, а там сплошные xml причём не самого лучшего вида... парсить это всё просто жесть...

 

А если пофантазировать...

Сделать выбор вида ссылок не "ИЛИ", а "И" (т.е. чтобы ссылка была вида xml и реальная ссылка под ней), то можно было бы организовать при парсинге выбор откуда брать данные, если в xml их нет, то парсим данные с сайта... Но это чисто теоретические фантазии на тему каким будет SimplePars в далёком будущем... )))

Заносите ссылку в стартовую на вкладке сбор ссылок.
Или в список очереди, в зависимости от того один у вас xml или нет.
 

Спойлер

9LeTxpy.png

Выбираете метод сбора ссылок xml

Дальше нужно в коде убрать один символ.
Открываете /admin/model/catalog/simplepars.php
И находите строку
#$reg_url = '#<url>(.*?)</url>#s';

и убираете в ней первую решотку, что бы вышло вот так.
$reg_url = '#<url>(.*?)</url>#s';

что бы было вот так.
 

Спойлер

8qOSYS7.png

 

И теперь модуль будет собирать ссылки в страницах между тегами <url></url>


Интересный факт, эта заготовка там с дремучих версий, еше с того периода когда появились первые заделы на сбор ссылок с карты сайта.
Собственно в xml есть 2 типа тегов, которые реально можно встретить.
1) <loc> - стандарт карты сайта.
2) <url> - в xml выгрузках.

Интересно то что второй вариант за все время я только три может четыре раза говорил как поменять теги.
Собственно исходя из этого такой вопрос могу решить иначе, просто в следующей бете добавлю еше один Метод в сбор ссылок.
С xml где тег <url>
Сразу на страницу сбора ссылок. Это покроет потребности в сборе ссылок с гибридных xml
 

  • +1 3
Надіслати
Поділитися на інших сайтах

19 часов назад, Mixxxa163 сказал:

Добрый день, если донор на англ. языке, есть ли варианты как парсить с переводом сразу?

Совершенно верно ответил
@Malciska 
Парсер парсит, перевод это уже дело десятое и для этого стоит найти подходящий инструмент.

  • +1 1
Надіслати
Поділитися на інших сайтах

3 часа назад, Rassol2 сказал:

Собственно исходя из этого такой вопрос могу решить иначе, просто в следующей бете добавлю еше один Метод в сбор ссылок.
С xml где тег <url>
Сразу на страницу сбора ссылок. Это покроет потребности в сборе ссылок с гибридных xml

Добрый день.

Да, было бы замечательно добавить в модуль дополнительные возможности. Потому, как если в модуле много разных проектов, если у Заказчика несколько разных Исполнителей, если модуль обновляется разными Исполнителями... учитывая все эти "если" вносить какие-то исправления в сам модуль, кроме автора модуля, не желательно...

Надіслати
Поділитися на інших сайтах


А что скажете по поводу реализации "Импорта ссылок из файла" через cron ? Вы летом писали, что есть в планах такая доработка... Иногда приходится использовать сразу два модуля, чтобы реализовать такую хотелку... (

Первым модулем парсим и формируем прайс со своими переделками, а вторым уже загружаем его на сайт... это чтобы "без рук", чтобы всё именно через cron происходило.

Надіслати
Поділитися на інших сайтах


1 минуту назад, Axelenz сказал:

А что скажете по поводу реализации "Импорта ссылок из файла" через cron ? Вы летом писали, что есть в планах такая доработка... Иногда приходится использовать сразу два модуля, чтобы реализовать такую хотелку... (

Первым модулем парсим и формируем прайс со своими переделками, а вторым уже загружаем его на сайт... это чтобы "без рук", чтобы всё именно через cron происходило.

Не совсем понял о чем речь.

Надіслати
Поділитися на інших сайтах

2 минуты назад, Rassol2 сказал:

Не совсем понял о чем речь.

Спойлер

image.thumb.png.9efcf89e3094c3e9601197f33d2f5534.png

Я про возможность нажимать эту кнопку и вносить ссылку на файл с помощью cron...

Надіслати
Поділитися на інших сайтах


Только что, Axelenz сказал:

Я про возможность нажимать эту кнопку и вносить ссылку на файл с помощью cron...

нет пока такого не будет.
Что бы это сделать нужно где то указывать путь к файлу который по крону будет браться.

Сейчас если честно вообще мало изменений будет в работе модуля.
По крайне мере глобальных.

Сейчас должен второй проект выложить а с 10 ноября я вообще месяца на два потеряю возможность глобально что то делать.
Так что сейчас все разработки приостановлены, изменение в ядро модуля не вношу.

Надіслати
Поділитися на інших сайтах

@Axelenz Ну и опять же если очень сильно нужно вы уже сейчас можете написать скрипт на 5-10 строк который будет это делать.
Создаете проект добавляете туда любую ссылку. Выбираете парсинг в csv можете даже границы не создавать.
И добавляете задание в крон, выполнять это раз в сутки.
Дальше пишите скрипт который будет брать определенный файл на диске сайта и отправлять запросы на добавление ссылок в очередь сканирования, или ссылки на товар куда вам нужно.
И вот у вас уже реализована это возможность.

Надіслати
Поділитися на інших сайтах

Добрый день. Хотел узнать, не планируется ли сделать поддержку многопоточности при использовании скриптов? Когда большой объем данных для парсинга, или фид на 300к товаров - слишком много времени требуется для обработки.

Спасибо.

Надіслати
Поділитися на інших сайтах


48 минут назад, Reanimaster сказал:

Добрый день. Хотел узнать, не планируется ли сделать поддержку многопоточности при использовании скриптов? Когда большой объем данных для парсинга, или фид на 300к товаров - слишком много времени требуется для обработки.

Спасибо.

Здравствуйте. 
Нет этого не будет. 
суть в том что при написании этого функционала я выбрал путь максимальной совместимости с модулем, что бы пользователи могли расширить возможность модуля и при необходимости использовать встроенные функции и методы опенкарта. А для этого собственные скрипты используют туже область видимости что основной код. И если запускать многопоток то получается скрипт добавляется в общий поток выполнение столько же раз сколько потоков. И это все ломает так как нельзя иметь несколько методов с одинаковым именем. 
 

короче говоря сам php не многопоточный и и где я смог я внедрил многопоточность а с скриптами это невозможно. 

Надіслати
Поділитися на інших сайтах

18 минут назад, kamrik сказал:

Доброго времени. Подскажите, имеет ли смысл использовать proxy для профилактики банов? Если сейчас донор пока не блокирует.

Для профилактики лучше использовать уменьшение нагрузки на сайт донора...

А это можно достичь, например:

- с помощью более продуманной фильтрации сбора ссылок как в очереди, так и в ссылках на товар,

- использовать для парсинга не все 7 дней недели,

- разделением парсинга на несколько частей за счёт использования таймаута,

- уменьшением количества потоков до 1,

- разделением парсинга для обновления и парсинга для добавления товара (при необходимости),

- увеличением времени парсинга за счёт увеличения задержек,

- создание задержек с использованием рандомного выбора паузы вида от и до: "1-10"...

Змінено користувачем Axelenz
  • +1 3
Надіслати
Поділитися на інших сайтах


2 часа назад, Rassol2 сказал:

И это все ломает так как нельзя иметь несколько методов с одинаковым именем. 

Вопросов нет. Спасибо.

Надіслати
Поділитися на інших сайтах


@Rassol2

Очередное наблюдение за сайтами клиентов...
Делал парсинг пару месяцев назад (магазин одежды) и по условию ТЗ выбирать нужно было у донора ссылки не по всем страницам пагинации и не на все группы товара, а, например, если платья имеют 400 страниц пагинации, то берём ссылки со 100 страниц; если футболки имеют 100 страниц пагинации, то берём ссылки с 20 страниц, т.е. выбираем то, что поновее. Так и сделал и всё парсилось... Но когда через пару месяцев посмотрел на товары, то обнаружил, что при увеличении общего количества страниц, количество товара в наличии по отношению к первоначальному уменьшилось почти в 2 раза! Специально начал проверять, почему так происходит и причина оказалась весьма банальной... сезонность товара. Так 400 страниц платьев превратились осенью, например, в 700 страниц пагинации, а футболок наоборот уменьшились до 5 страниц... Получилось, что при парсинге значительно уменьшилось ежедневное поступление товара в магазин за счёт изменения пропорции летний/зимний товар.

 

Возникает следующий вопрос... как же можно это донести до клиента и возможно ли его обучить вносить сезонные изменения в Очередь сканирования ссылок ? Очевидно, что нет или далеко не всегда...

Из вышесказанного возникает очередная хотелка "на будущее" или "отложите в длинный ящик"...
Выбор в Графике выполнения cron заданий по дополнительному условию, например:
- в зависимости от времени года (просто привязкой к дате);
- в зависимости от дня недели (у некоторых магазинов цена в обычный день и в выходной может отличаться; привязка к дню недели);
- в зависимости от времени дня (по типу - ночью дешевле, как пример; привязка ко времени).

 

Т.е. чтобы совсем было понятно, например: до 28/02/2022 выполняется cron [1]Одежда_зимняя, а уже с 01/03/2022 выполняется cron [2]Одежда_весенняя. В которых можно уже предусмотреть разные наценки для разных групп товаров, разные пропорции парсинга категорий товаров и пр. важные моменты для магазинов, которые связаны с сезонным товаром:
- магазины одежды
- магазины обуви
- магазины товаров для детей
- спортивные магазины и пр.

Думаю, что на сегодня хотелок достаточно, наверное я уже и так превысил их количество за единицу времени...

Надіслати
Поділитися на інших сайтах


Здравствуйте, подскажите пожалуйста такой момент.

Делаю парсинг двуязычного магазина.

Вопрос по атрибутам.

1 прогон делаю на русском (xml на русском) в настройкаx SimplePars русский и все соответственно прописывается коректно.

2 прогон на украинском (xml на украинском) в настройкаx SimplePars украинский.

Вопрос какой вариант обновления атрибутов выбрать чтобы "дописало" значение только для украинского поля?

У меня или затирает и пишет Украинский (русский получается пустой) или вовсе ничего не меняет.

Надіслати
Поділитися на інших сайтах


11 минут назад, yurok79 сказал:

Делаю парсинг двуязычного магазина.

Вопрос по атрибутам.

1 прогон делаю на русском (xml на русском) в настройкаx SimplePars русский и все соответственно прописывается коректно.

2 прогон на украинском (xml на украинском) в настройкаx SimplePars украинский.

Вопрос какой вариант обновления атрибутов выбрать чтобы "дописало" значение только для украинского поля?

У меня или затирает и пишет Украинский (русский получается пустой) или вовсе ничего не меняет.

https://simplepars.top/index.php?page=note&n=39  Почитайте здесь

  • +1 1
Надіслати
Поділитися на інших сайтах


3 часа назад, Axelenz сказал:

Возникает следующий вопрос... как же можно это донести до клиента и возможно ли его обучить вносить сезонные изменения в Очередь сканирования ссылок ?

Как вам донести до клиента что у донора меньше ссылок ? Извините но на этот вопрос вы сами должны искать ответ, но точно не я.

3 часа назад, Axelenz сказал:

Из вышесказанного возникает очередная хотелка "на будущее" или "отложите в длинный ящик"...
Выбор в Графике выполнения cron заданий по дополнительному условию, например:
- в зависимости от времени года (просто привязкой к дате);
- в зависимости от дня недели (у некоторых магазинов цена в обычный день и в выходной может отличаться; привязка к дню недели);
- в зависимости от времени дня (по типу - ночью дешевле, как пример; привязка ко времени).

Этого тоже не будет.
Это настолько редкий кейс. Вот если бы вы такое не написали я бы и не знал что кто то так делает.

 

3 часа назад, Axelenz сказал:

Думаю, что на сегодня хотелок достаточно, наверное я уже и так превысил их количество за единицу времени...

У вас больше хотелки которые точечно закрывают какой то аспект. А модуль разрабатывается как инструмент для большинства.
И нет не будет в кроне возможности указать сезонность что бы появилась другая наценка или еше что то.

И да, никто не запрещает человеку с наступлением сезона поменять настройку. Такое нельзя учеть в кроне.
А вдруг сезон начнется на месяц раньше, или на месяц позже.
А если его вообще не будет из за ковида.

Да тут в любом случаи не получится учитывать все особенности что бы это реализовать, так или иначе при сезонности нужно будет зайти и что то проконтролировать.
Все же интернет содержание интернет магазина это работа и её тоже нужно делать.

Надіслати
Поділитися на інших сайтах

5 часов назад, kamrik сказал:

Доброго времени. Подскажите, имеет ли смысл использовать proxy для профилактики банов? Если сейчас донор пока не блокирует.

Имеет смысл поставить один поток и паузу к примеру от 3-6 и поставить задание на крон по ночам. И спать спокойно. (снизить свое присутствие у донора)
Можно и прокси но если вы будете долбить донора с прокси и создавать нагрузку администраторам это не понравится и они сядут в один прекрасный день за чашечкой кофе и прикрутят зашиту, а вот потом и с прокси будет не сахар.

Моя позиция такова, при парсинге быть аккуратным и не создавать проблем донору. Пока у них нет проблем они не будут мешать, а как только будут проблемы прокси не прокси им что то нужно будет делать, и вот это проблема для парсинга в будущем.

Надіслати
Поділитися на інших сайтах

5 минут назад, yurok79 сказал:

Походу не решаемо(( ?

Получается по ссылке выше описано почему это физически сделать не возможно.
Модуль не понимает что
Цвет это Колiр что это одно и тоже слово на двух языках, по этому он не может понять к какому атрибуту нужно записать слово колир как второй язык.

Надіслати
Поділитися на інших сайтах

Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз

×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.