Jump to content
Search In
  • More options...
Find results that contain...
Find results in...

Axelenz

Users
  
  • Posts

    736
  • Joined

  • Last visited

Everything posted by Axelenz

  1. Но если уж так сильно нужно, то можно и выдернуть остальные изображения, только из самого браузера путём сбора ссылок фото по каждой ссылке товара. Ссылки на страницы товара будут собраны самим модулем, а дальше, например, используем плагин поиска ссылок фото на странице в связке со скриптом. Лично я так собирал информацию с альбомов ВК. Управляющий скриптик + куча доп. плагинов для браузера и можно закрыть 99% любых хотелок...
  2. Вот разработчик модуля пишет про многопоточность... читайте... https://opencartforum.com/topic/123017-podderzhka-simplepars-universalnyy-parser-dlya-im/?page=85&tab=comments#comment-1519570 https://opencartforum.com/topic/123017-podderzhka-simplepars-universalnyy-parser-dlya-im/?page=29&tab=comments#comment-1365304
  3. Это width=100% может дописываться только в том случае, если у Вас не правильно указана граница... Попробуйте вместо "> указать границу "
  4. Вы явно не читали мануал уважаемого разработчика... То, что Вы хотите сделать Вам вообще ни к чему. Вам нужно лишь указать главную границу: Текст начала парсинга data-fit="contain" data-navposition="bottom"> Текст конца парсинга </a> и повторяющуюся границу: Текст начала парсинга href=" Текст конца парсинга " и картинка будет у Вас...
  5. Регулярное выражение удалит из текста, например, 2+ (два и более) закрывающих тега </div> со всеми пробелами, табуляциями, переводами строки и пр. перед ними, между ними и после них. Удалит в начале текста, в конце текста, в начале и в конце текста или по всему тексту, в зависимости от выбранной формулы: {reg[#^(\s*</div>\s*){2,}#]}| - от 2-х и более, в начале текста {reg[#(\s*</div>\s*){2,}$#]}| - от 2-х и более, в конце текста {reg[#(\s*</div>\s*){2}$#]}| - только 2, в конце текста {reg[#^(\s*</div>\s*){2,}|(\s*</div>\s*){2,}$#]}| - от 2-х и более, в начале и в конце текста {reg[#(\s*</div>\s*){2,}#]}| - от 2-х и более, удаление по всему тексту {reg[#(\s*<br>\s*){2,}|(\s*<br />\s*){2,}#]}| - то же самое, только с <br>, по всему тексту дальше можно потренироваться с жадный/не жадный... Примерно так это удаляет на практике: удалив запятую в фигурных скобках - получим конкретное число удаляемых в конце тегов. Вместо </div> подставляем интересующие для удаления повторяющееся сочетания символов...
  6. {reg[#(\s*</div>\s*){2,}$#]}| удалит в конце текста, например, 2+ (два и более) закрывающих тега </div> со всеми пробелами, табуляциями, переводами строки и пр. в начале, между ними и в конце текста.
  7. Нет необходимости усложнять там, где это возможно: :&nbsp;&nbsp;| Но уважаемый разработчик не просто так спросил очевидно он хотел сказать, что Ваша основная задача разделить Наименование атрибута и Значение атрибута, а не бороться с пробелами...
  8. так Гугел говорит следующее: https://curl.haxx.se/libcurl/c/CURLOPT_HTTP_VERSION.html Attempt HTTP 2 requests. libcurl will fall back to HTTP 1.1 if HTTP 2 can't be negotiated with the server. (Added in 7.33.0) The alias CURL_HTTP_VERSION_2 was added in 7.43.0 to better reflect the actual protocol name. ---------------------------------------------------------------------------------------------------------------------------- Попытка выполнить запросы HTTP 2. libcurl вернется к HTTP 1.1, если HTTP 2 не может быть согласован с сервером. (Добавлено в 7.33.0) Псевдоним CURL_HTTP_VERSION_2 был добавлен в 7.43.0 для лучшего отражения фактического имени протокола. Попробуйте использовать другую версию PHP... или посмотрите, правильную ли версию PHP Вы установили себе ?
  9. Неразрывный пробел в HTML (&nbsp; | &#160; | u+00a0) Для отображения символов, которых нет на клавиатуре, применяются специальные знаки, начинающиеся с амперсанда (&) и заканчивающиеся точкой с запятой (;).
  10. Думаю, что кроме пары сотен лишних вопросов на форуме, типа "а почему оно... а я то думал..." ничего хорошего от этой затеи больше иметь не будете )))
  11. Я по текстам прохожусь всегда вот такой связкой: {reg[#\t#]}| {reg[#\s{2,}#]}| {reg[#^\s+|\s+$#]}| что означает: вместо табуляции - пробел вместо нескольких пробелов - один удалить пробел в начале и конце текста...
  12. Я имел ввиду нечто иное... Поразмыслив, чего же мне лично не хватает в модуле, я пришёл к выводу, что не хватает информативности! Аналогия: мы смотрим фильм с запутанным сюжетом и иногда лишь по заключительным титрам понимаем, что фильм то уже закончился ) Вернёмся к парсеру... Про то, что парсинг закончился мы понимаем по тексту "Ссылок в очереди: 0". Лично мне не хватает краткого отчёта по самому парсингу, как отработал модуль моё задание! Никто из обычных (да и не обычных тоже) пользователей не будет просто так лезть в Логи и читать подробный отчёт о парсинге 10,000 товаров... это избыточная информация. А вот краткий отчёт в конце работы парсера, мол ты мне дал 10.000 ссылок, я спарсил 9.000, а остальное "ниасилил многа букаф"... Вот при таких словах уже есть смысл лезть в логи и смотреть, а почему не выполнено задание... Точно так же я писал про информативность о наличии в тексте Запрещённого контента от Гугла...
  13. У каждого клиента свои хотелки... Один Заказчик, например, дал перечень слов и сказал, чтобы товары с этими словами не присутствовали в прайсе. Слова эти дали ему представители поисковика. Т.е. тут уже необходимо поработать с подобным текстом, насколько он важен для клиента... не просто сделать замену слов, а проанализировать и решить, что дальше делать: удалить, заменить на синонимы при необходимости и т.д. Вот, к примеру, товар, который не проходит у клиента и он его удаляет: Жидкость для электронных сигарет поэтому я фильтрую тексты на присутствие слов: сигарета, сигареты... а также пистолет, нож, оружие, алкоголь...
  14. Из хотелок... на далёкие перспективы ) Очень удобно было бы, чтобы можно было создавать текстовый файл, а в нём размещать слова с "запрещённого контента" https://support.google.com/adspolicy/answer/6008942?hl=ru#con а дальше проверять, например, наличие данных слов в Наименовании товара или в Описании товара и делать какие-то действия, если такие присутствуют в тексте...
  15. Проверил, единственно, что не нравится, что в таблицу подхватывается и заносится само "или". Т.е. получаю в итоговом столбце перед данными это или "{|}", которое потом необходимо будет удалять в Excel ) Парсинг на локалке, Open Server 5.2.2.
×
×
  • Create New...

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.