-
Публікації
740 -
З нами
-
Відвідування
Тип публікації
Профілі
Форум
Маркетплейс
Статті
FAQ
Наші новини
Магазин
Блоги
module__dplus_manager
Усі публікації користувача Axelenz
-
Да, но если случай совсем тяжкий, например: тогда используем более сложный вариант предыдущего регулярного выражения: {reg[#(\s*\<br\>\s*(?!=\r\n))+#]}|<br> Казалось бы зачем придумывать, если есть регулярное выражение {reg[#^(.*?)\s+?^(?=.*^\1$)#m]}| - Удалит две Идентичные строки друг за другом. Но это чистильщик, который необходимо использовать только тем, кто знаком хоть немного с html... А что, если у Вас в описании будут: </div> </div>
-
{reg[#(\<br\>\r\n)+#]}|<br> - один из самых простых способов превратить любое количество повторяющихся <br> в один.
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Из хотелок... Хочется указывать сразу при парсинге в csv, например, "Дату начала" и "Дату окончания" акции. Можно ли как-то в столбце Значение {...} указать Дату "сегодня" а в следующей строке, например, "сегодня" + 7 дней ? Чтобы в прайсе вывело в одном и следующем столбце даты с разницей в эти 7 дней ??? Формат Даты желательно вида: ДД.ММ.ГГГГ
-
Ну и не забывайте о тех, кому интересен парсинг в CSV... хочется видеть развитие и в этой ветке модуля )
-
1С:Битрикс движок...
-
Но если уж так сильно нужно, то можно и выдернуть остальные изображения, только из самого браузера путём сбора ссылок фото по каждой ссылке товара. Ссылки на страницы товара будут собраны самим модулем, а дальше, например, используем плагин поиска ссылок фото на странице в связке со скриптом. Лично я так собирал информацию с альбомов ВК. Управляющий скриптик + куча доп. плагинов для браузера и можно закрыть 99% любых хотелок...
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Вот разработчик модуля пишет про многопоточность... читайте... https://opencartforum.com/topic/123017-podderzhka-simplepars-universalnyy-parser-dlya-im/?page=85&tab=comments#comment-1519570 https://opencartforum.com/topic/123017-podderzhka-simplepars-universalnyy-parser-dlya-im/?page=29&tab=comments#comment-1365304
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Это width=100% может дописываться только в том случае, если у Вас не правильно указана граница... Попробуйте вместо "> указать границу "
-
Попробовал разные настройки, работает даже при таких "не рекомендованных" автором )
-
Этот сайт парсится практически с любыми настройками...
-
Повторяющейся границы внутри обычной границы парсинга https://simplepars.top/index.php?page=note&n=8 Вот то, что Вам необходимо изучить.
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Вы явно не читали мануал уважаемого разработчика... То, что Вы хотите сделать Вам вообще ни к чему. Вам нужно лишь указать главную границу: Текст начала парсинга data-fit="contain" data-navposition="bottom"> Текст конца парсинга </a> и повторяющуюся границу: Текст начала парсинга href=" Текст конца парсинга " и картинка будет у Вас...
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
{reg[#^0#]}|
- 13 413 відповіді
-
- 2
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Регулярное выражение удалит из текста, например, 2+ (два и более) закрывающих тега </div> со всеми пробелами, табуляциями, переводами строки и пр. перед ними, между ними и после них. Удалит в начале текста, в конце текста, в начале и в конце текста или по всему тексту, в зависимости от выбранной формулы: {reg[#^(\s*</div>\s*){2,}#]}| - от 2-х и более, в начале текста {reg[#(\s*</div>\s*){2,}$#]}| - от 2-х и более, в конце текста {reg[#(\s*</div>\s*){2}$#]}| - только 2, в конце текста {reg[#^(\s*</div>\s*){2,}|(\s*</div>\s*){2,}$#]}| - от 2-х и более, в начале и в конце текста {reg[#(\s*</div>\s*){2,}#]}| - от 2-х и более, удаление по всему тексту {reg[#(\s*<br>\s*){2,}|(\s*<br />\s*){2,}#]}| - то же самое, только с <br>, по всему тексту дальше можно потренироваться с жадный/не жадный... Примерно так это удаляет на практике: удалив запятую в фигурных скобках - получим конкретное число удаляемых в конце тегов. Вместо </div> подставляем интересующие для удаления повторяющееся сочетания символов...
-
{reg[#(\s*</div>\s*){2,}$#]}| удалит в конце текста, например, 2+ (два и более) закрывающих тега </div> со всеми пробелами, табуляциями, переводами строки и пр. в начале, между ними и в конце текста.
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Почитайте про этот модуль, может разрешит Вашу проблему... https://opencartforum.com/files/file/4572-image-compressor-watermark-webp-lazy-load-etc-by-sitecreator/
-
Это имели ввиду ?
-
Нет необходимости усложнять там, где это возможно: : | Но уважаемый разработчик не просто так спросил очевидно он хотел сказать, что Ваша основная задача разделить Наименование атрибута и Значение атрибута, а не бороться с пробелами...
-
так Гугел говорит следующее: https://curl.haxx.se/libcurl/c/CURLOPT_HTTP_VERSION.html Attempt HTTP 2 requests. libcurl will fall back to HTTP 1.1 if HTTP 2 can't be negotiated with the server. (Added in 7.33.0) The alias CURL_HTTP_VERSION_2 was added in 7.43.0 to better reflect the actual protocol name. ---------------------------------------------------------------------------------------------------------------------------- Попытка выполнить запросы HTTP 2. libcurl вернется к HTTP 1.1, если HTTP 2 не может быть согласован с сервером. (Добавлено в 7.33.0) Псевдоним CURL_HTTP_VERSION_2 был добавлен в 7.43.0 для лучшего отражения фактического имени протокола. Попробуйте использовать другую версию PHP... или посмотрите, правильную ли версию PHP Вы установили себе ?
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Как минимум их можно удалить... class="disabled">{skip}</span>|>
-
Неразрывный пробел в HTML ( |   | u+00a0) Для отображения символов, которых нет на клавиатуре, применяются специальные знаки, начинающиеся с амперсанда (&) и заканчивающиеся точкой с запятой (;).
-
Думаю, что кроме пары сотен лишних вопросов на форуме, типа "а почему оно... а я то думал..." ничего хорошего от этой затеи больше иметь не будете )))
-
Я по текстам прохожусь всегда вот такой связкой: {reg[#\t#]}| {reg[#\s{2,}#]}| {reg[#^\s+|\s+$#]}| что означает: вместо табуляции - пробел вместо нескольких пробелов - один удалить пробел в начале и конце текста...
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Модуль обрастает новыми возможностями... и это хорошо )
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)
-
Я имел ввиду нечто иное... Поразмыслив, чего же мне лично не хватает в модуле, я пришёл к выводу, что не хватает информативности! Аналогия: мы смотрим фильм с запутанным сюжетом и иногда лишь по заключительным титрам понимаем, что фильм то уже закончился ) Вернёмся к парсеру... Про то, что парсинг закончился мы понимаем по тексту "Ссылок в очереди: 0". Лично мне не хватает краткого отчёта по самому парсингу, как отработал модуль моё задание! Никто из обычных (да и не обычных тоже) пользователей не будет просто так лезть в Логи и читать подробный отчёт о парсинге 10,000 товаров... это избыточная информация. А вот краткий отчёт в конце работы парсера, мол ты мне дал 10.000 ссылок, я спарсил 9.000, а остальное "ниасилил многа букаф"... Вот при таких словах уже есть смысл лезть в логи и смотреть, а почему не выполнено задание... Точно так же я писал про информативность о наличии в тексте Запрещённого контента от Гугла...
- 13 413 відповіді
-
- 1
-
- simplepars
- парсинг товаров opencart
- (і ще %d)