Jump to content
Search In
  • More options...
Find results that contain...
Find results in...

Axelenz

Users
  
  • Posts

    744
  • Joined

  • Last visited

Everything posted by Axelenz

  1. Для того, чтобы автоматически создавать Описание товара при разных исходных, я давно уже сделал скрипт, который именно этим и занимается. Скрипт понятно не бесплатный, там около 500 строк, которые участвуют в формировании рандомного Описания товара, информация берётся из разных мест, как вносимых вручную, так и тех, которые берутся из данных о товаре... Вот кусок этого скрипта, для примера: http://joxi.ru/p27jy4gTZbgyGm https://prnt.sc/IHql3xmapf6H Пользоваться скриптом самому не так просто... необходимо минимальное знание php и понимание SimplePars, особенно раздела https://simplepars.top/index.php?page=note&n=48 Поэтому я его обычно наполняю сам заказчику, под его конкретные нужды. От заказчика желательно получить синонимальный ряд для формирования текста именно по его теме... Но скрипт такой есть. А какие тексты выходят из него и насколько они рандомны - это уже зависит от того, какие данные и в каком количестве ему скормить...
  2. Для возможных многострочных текстов подойдёт что-то типа такого регулярного выражения: {reg[#\A(.{0,10})(.*?)(\v.*?)+\z#u]}|$1 http://joxi.ru/L21qOG3UDjnDD2 {reg[#\A\s*(.{0,10})(.*?)(\v.*?)+\z#u]}|$1 со страховкой от пустых мест перед самим текстом... Правильно заданный вопрос несёт в себе половину ответа. Тексты бывают разные...
  3. Данные парсятся с донора... id товара ещё не присутствует ни в каком практическом виде при получении этих данных, id присваивается при внесении товара на сайт CMS Opencart.
  4. В Вашем случае можно использовать следующее регулярное выражение: {reg[#(от\s+\d+)\s+до\s+\d+#iu]}|$1 это самое простое выражение без избыточности, т.е. не учитываем то, что может стоять до или после фразы "от 4 до 6 лет" https://prnt.sc/MGfZEU3_Rzw5 Группу $2 можете использовать в зависимости от того, какие данные хотите ещё получить/обрезать. {reg[#(от\s+\d+)\s+до\s+\d+(\s+лет)(.*?)$#iu]}|$1$2 https://prnt.sc/ejZn8q5rrFcR {reg[#^(.*?)(от\s+\d+)\s+до\s+\d+(\s+лет)(.*?)$#iu]}|$2$3 https://prnt.sc/f7vezThcT2q0 Выражение регулярное на стр. 446 {reg[#^(.*?)Fish(.*?)$#]}|Fish это немного о другом... Это поиск слова во всей фразе, при нахождении которого вся фраза заменяется на это слово. У Вас же иная задача - это вырезание из текста не нужных слов. Поэтому в Вашем случае нужно юзать именно правильные регулярки. Разница в универсальности использования... так регулярка {reg[#^(.*?)(от\s+\d+)\s+до\s+\d+(\s+лет)(.*?)$#iu]}|$2$3 будет срабатывать при любых цифрах указанных в возрасте... P.S. А вообще по одной единственной фразе строить регулярное выражение для донора это не правильно... правильно - собрать анамнез, например, всех (большинства) атрибутов и уже на основе увиденного разнообразия ставить диагноз...
  5. http://joxi.ru/52a9DBJu0nEJO2 Регулярное выражение имеет такой вид (это по быстрому, чтобы особо не заморачиваться) {reg[#^(\d+?{csvnc})(\d+?({csvnc})?)(\d+?({csvnc})?)(\d+?({csvnc})?)(\d+?({csvnc})?)(\d+?({csvnc})?)(\d+?({csvnc})?)(\d+?({csvnc})?)(\d+?({csvnc})?)(\d+?({csvnc})?)$#]}|$1$4$8$12$16$20$24 {reg[#{csvnc}$#]}| Решение не идеальное и нужно подпилить под себя... сколько там максимально возможных вариантов будет и т.п.
  6. Проблема после парсинга, в основном у всех одна - не хватает места на хостинге с прежним тарифным планом... Бывает ещё, что по головотяпству где-то оставляют, например, непарный <div>(</div>) и вся разметка летит...
  7. Такая конструкция имеет недостаток. А что, если не во всех title встречается это ключевое слово ? Для этого необходимо сначала добавить ключевое слово, например, в начало текста, а потом уже удалять по нему...
  8. При таких количествах использовать все 5 потоков с двух сайтов смысла нет. Есть пословица: «Тише едешь – дальше будешь»... Лучше всего эмпирическим путем найти золотую середину для каждого сайта, за сколько часов и во сколько потоков всё приемлемо спарсится, а не долбить донора по максимуму ) Да и свой хостинг нагружать... так себе перспектива...
  9. Вы же не пишете самого основного - количество товаров. И что это за действия ? Обновление цены и количества с догрузкой новых товаров ? Ну и понимать необходимо, что за донор... может это Prom или ещё что... Вы задаёте вопросы, но не говорите самых важных моментов... а именно в них - всё.
  10. Если у Вас есть 2 разных сайта и на обоих стоит модуль SimplePars, то можете парсить с одного или с разных доноров, без разницы. Только делать всё равно это необходимо осмысленно, чтобы не нагружать донора своей излишней активностью...
  11. Это реализовать не возможно, потому, что у Вас такой частный случай. А может кому-то нужно наоборот не сохранять, а удалять Fish, правило будет выглядеть по другому... А кто-то, так же не вникая в регулярные выражения, может подумать, что это всё работает только для слова Fish... и так получится целая книга... а смысла в этом нет, потому, что книг по регуляркам и так хватает...
  12. Если Вам нужно удалить всё, кроме этого слова Fish, то правило с цифрами, на которое Вы ссылаетесь это совершенно о другом... Вам что-то типа этого нужно: {reg[#^(.*?)Fish(.*?)$#]}|Fish
  13. Если Вы хотите сделать регулярку методом научного тыка, то это надолго... Придётся всё же почитать хотя бы минимум, что это такое и как оно работает... {reg[#(^Fish)#]}| как Вы указываете удалить, так оно правильно и удаляет... Вам сюда: https://simplepars.top/index.php?page=note&n=37
  14. У Вас типичный случай, когда Атрибуты выводятся через таблицу <table> и имеют ещё и группу Атрибутов. Лучше всего подобные конструкции выводить по классическому способу, с простыми и повторяющимися границами, как и писал @partshez Используйте сразу же в простой границе регулярки: &nbsp;| {reg[#\s{2,}#u]}| {reg[#\s+?</span>\s+?#u]}|{csvnc} А дальше - повторяющиеся границы.
  15. На сайте может быть кроме кода товара ещё и id товара, т.е. порядковый номер товара на сайте. Можно использовать его. Связываться с Названием товара в качестве Артикула (даже используя хеш) занятие так себе... а если там был лишний пробел в Названии и его потом увидели и исправили, то что тогда ?
×
×
  • Create New...

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.