Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

17 часов назад, Rassol2 сказал:

Пока что у меня нету решения вашего вопроса.
Потому что у етого донора браузер показывает русские буквы но по факту там код.
CeSFgug.png

это опять возврат к теме доп символов и к самой таблице..... 

временное решение, как и ранее, найти таблицу соответствия символов (например, https://web-developer.name/urlcode/) и внести правило замены кодов на символы в поиск-замену. тогда всё пройдет.

т.е. надо будет в поиск-замене для данной границы (полученной вашей ссылки) "%D0%А1" заменить на "С". и так для всего алфавита и необходимых символов. 

это известная проблема, но далеко не везде решенная, и приплывает из различных источников - из ссылок, с html-текста, из прайсов и т.д. В АОП максимально решена, в этом модуле пока частично, но можно ручками дописать правила в поиск-замене. так что проблем в решении задачи пока не вижу.

 

Надіслати
Поділитися на інших сайтах


3 минуты назад, stas2010 сказал:

В АОП максимально решена, в этом модуле пока частично, но можно ручками дописать правила в поиск-замене. так что проблем в решении задачи пока не вижу.

Нельзя просто взять и прописать расшифровку для всех видов кодировок. :(
В аоп тоже было интересно неужели сергио взял и под все кодировки загнал расшифровку. Но нет в коде модуля нет такого блока.

Вопрос будет решено правда позже, сейчас хочу уже выкатить обновление с исправлением всех ошибок и с доработанным алгоритмом сбора ссылок.

 

Спойлер

r94oJ27.png

А то сейчас при разработке сложно распылятся на мелкие исправления. Сложно, долго, и много ошибок потом. :(

Надіслати
Поділитися на інших сайтах

 

17 часов назад, theplastique сказал:

жаль,что решения нет :( спасибо вам за потраченное время

Все данная проблема решена в модуле.
фикс войдет в следующие бето версию. А именно в 2.9-4
Если вам нужен файл исправления напишите я скину.
 

Надіслати
Поділитися на інших сайтах

58 минут назад, Rassol2 сказал:

 

Все данная проблема решена в модуле.
фикс войдет в следующие бето версию. А именно в 2.9-4
Если вам нужен файл исправления напишите я скину.
 

Спасибо вам :)

Надіслати
Поділитися на інших сайтах


 
Цитата

Вариант Не создавать новые|Не обновлять   Для этого и существует.

С категориями понял. Отлично. Спасибо!

Цитата

Следующий вопрос. Опции. Выбираю *Обязательная опция* http://prntscr.com/ps6rdi  Выбираю Действие *Обновлять*. В результате в товаре http://prntscr.com/ps6s7k  Опция не становится обязательной. 

http://prntscr.com/psl4pt Обновляю существующие опции. Опция не становится обязательной. 

Отключаю (удаляю) в товаре полностью опции, запускаю модуль еще раз. Настройки модуля не изменяю http://prntscr.com/psl5z4    Опции созданы , статус опций обязательно  http://prntscr.com/psl6pl

В Логе вижу еще одну операцию  http://prntscr.com/psl7nj  , которой не было при Обновлении ранее (http://prntscr.com/psl4pt)

Т.е. изменения статуса на *обязательно* не происходит при обновлении существующих опций. Только при создании опций...

Вопрос не критичный для меня. Но прошу этот момент учесть на будущее. 

Надіслати
Поділитися на інших сайтах


3 минуты назад, partshez сказал:

Вопрос не критичный для меня. Но прошу этот момент учесть на будущее. 

Проверю и учту. Спасибо.
Какая у вас версия модуля сей час ?

Надіслати
Поділитися на інших сайтах

1 час назад, Rassol2 сказал:

Проверю и учту. Спасибо.
Какая у вас версия модуля сей час ?

SimplePars v2.9-3_beta

Змінено користувачем partshez
Надіслати
Поділитися на інших сайтах


2 часа назад, partshez сказал:

SimplePars v2.9-3_beta

проверить смогу наверное только ночью, тогда и отпишусь по этому вопросу.

Надіслати
Поділитися на інших сайтах

3 часа парсились все ссылки с сайта донора. Спарсились. После чего обнаружилась ошибка в настройках. Например в тексте начала или конца парсинга или на вкладке "Поиск/замена" забыл указать какие-то теги чтобы вырезались и т.д. И получается, что нужно исправить ошибки и ЗАНОВО парсить три часа с сайта донора, чтобы получить результат без ошибок... Тратится куча времени на повторный парсинг...

 

Сделайте, пожалуйста, чтобы модуль сохранял после парсинга код спарсенной страницы в папке с названием проекта на сервере. Чтобы после исправления ошибок модуль быстро повторно пробежался бы по уже сохраненному на сервере коду страниц и быстро выдал результат? Это ведь будет в 10 раз быстрее, чем заново каждый раз парсить три часа с сайта донора...

 

А в настройках модуля можно добавить настройку, вроде "Парсить заново" или "Пройтись по сохранных ранее данным", чтобы не каждый раз НЕ парсить все с нуля...

 

 

Надіслати
Поділитися на інших сайтах


32 минуты назад, realmen80 сказал:

А в настройках модуля можно добавить настройку, вроде "Парсить заново" или "Пройтись по сохранных ранее данным", чтобы не каждый раз НЕ парсить все с нуля...

 

 

 

Я бы предложил Rassol2 сделать что-то типа "тестового парсинга", где предварительно были бы спарсены, например, каждая 10-я(или 100-я, 1000-я и т.п., как указать) страницы для того, чтобы пройтись по сайту, попасть на разные категории товара и увидеть, что получим в итоге в прайсе и своевременно внести исправления, чтобы потом не парсить всё заново...

Можно указать спарсить каждую N-страницу или указать сколько страниц спарсить со всей ссылочной массы, кому как удобнее... Можно использовать рандомную выборку ссылок для парсинга... можно указать, чтобы ссылки брались только с разных категорий/подкатегорий, что было бы ну очень удобно... вариантов много для реализации.

Можно, конечно, самому повыбирать ссылки с каждой категории и спарсить для тестирования, но... готовое решение в модуле будет намного удобнее... )

Змінено користувачем Axelenz
Надіслати
Поділитися на інших сайтах


27 минут назад, Axelenz сказал:

Я бы предложил Rassol2 сделать что-то типа "тестового парсинга", где предварительно были бы спарсены, например, каждая 10-я(или 100-я, 1000-я и т.п., как указать) страницы для того, чтобы пройтись по сайту, попасть на разные категории товара и увидеть, что получим в итоге в прайсе и своевременно внести исправления, чтобы потом не парсить всё заново...

Это не одно и тоже что предлагает @realmen80 
В вашем случаи парсинг все равно будет повторный.
 

29 минут назад, Axelenz сказал:

Можно, конечно, самому повыбирать ссылки с каждой категории и спарсить для тестирования, но... готовое решение в модуле будет намного удобнее... )

Вот тут вы правы. делать отдельно под это я не считаю мего необходимым. Кому нужно может взять ссылки на выбор и прогнать.
С другой стороны было бы интереснее реализовать некий промежуточный шаг. Что бы парсинг производился не в магазин и прайс. А в базу данных. И там уже можно было оценить все и одним нажатием загрузить в магазин, в прайс или еше куда нужно будет.

Но об этом говорить очень рано, еше много поточность и крон в переди. Это два тяжелых рубежа.

 

57 минут назад, realmen80 сказал:

А в настройках модуля можно добавить настройку, вроде "Парсить заново" или "Пройтись по сохранных ранее данным", чтобы не каждый раз НЕ парсить все с нуля...

Ну а тут идея в принципе ясна. Она то реализована уже, в пред просмотре кода.
Когда вы открываете настройки парсинга модуль кеширует страницу.
За это отвечает настройка
 

Спойлер

z3B26CV.png

Каждая страница весит в ранее 150кб
если представить что вы парсите сайт в котором есть 10 000ссылок получается
1500мб дискового пространства будет занято. Чисто кешированием сайта.

Если сделать такую настройку и установить ее по умолчанию как нет. То проблем не будет, кто захочет тот сам включит ее.

Но тут у меня сомнения сразу по многим параметрам.

 

1. Дисковое пространство, ведь в парсинге в им, получается модуль  будет парсить фото заполнять базу данных и параллельно сохранять страницу что парсит. Это много сразу много места будет занимать. И что будет если модуль начнет переполнять квоту. Это ведь тоже нужно как то предусмотреть.

 

2. Скорость работы модуля в таком режиме. Ведь тоже нужно не забывать что тут будет задействовано дополнительные операции с жестким диском а они считаются самым узким местом в серверных системах. Ведь в кешировании в пред просмотре это не существенно когда идет речь о короткой дистанции, но есть ли целесообразность на длинных дистанции там где парсинг шел 3 часам, можете идти 3.5 или 4 часа просто из за включенной функции кеширования.

3. Потребление ресурсов модулем. Насколько это повысит нагрузку на веб сервер на котором работает парсер. Не хочется что бы клиенты получали письма с угрозами от хостинга из за того что они используют мой модуль и потребляют много ресурсов. Ведь это тоже нужно учитывать.

 

4. И самое болезненное для меня. :(
Здравствуйте ваш парсер работает не корректно, на сайте цена 10р а модуль парсит 5р. Вот мои настройки зайдите проверьте.
И я буду заходить и постоянно видеть что пользователь банально забыл что у него кеш страницы годичной давности.
Или учитывать это при разборе проблем. Короче это может быть треш еше тот.

Но как говорится клиенты просят мы делаем. Если люди пропитаются чувством к этой функции, то буду реализовывать. Потому что в этой идеи в принципе что то есть.

А именно.
1. скорость повторного парсинга.
2. убираем риски бана за аномальную активность, а точнее понижаем риски.
3. понижаем потребления трафика.

Так что будем ждать отклика от остальных.

Надіслати
Поділитися на інших сайтах

Главное чтобы клиенты на форум заходили :) А то есть такие что купили модуль и не заходят на форум... Было бы отлично, если бы можно было форму с голосованием в сообщение вставить. Тогда клиенты могли бы проголосовать нужно или нет...

Надіслати
Поділитися на інших сайтах


2 минуты назад, realmen80 сказал:

Главное чтобы клиенты на форум заходили :) А то есть такие что купили модуль и не заходят на форум... Было бы отлично, если бы можно было форму с голосованием в сообщение вставить. Тогда клиенты могли бы проголосовать нужно или нет...

потихоньку нарашиваем аудиторию. :)
Периодически появляются отзывы, хотелки, ну и баги куда без них. По этому пользователи появляются здесь.

Надіслати
Поділитися на інших сайтах

Вопрос к коллегам-владельцам модуля. Кто сталкивался с такой проблемой и кому будет полезной данная функция модуля.

 

У поставщика вокруг атрибутов в тексте - хаос... Куча разных тегов которые приходится вырезать. После всех замен получается что тег {csvnc} дублируется по несколько раз... Где то 5 тегов подряд, где-то 4, где то 3 или 2, вот так, примерно:

  Цитата

{csvnc}{csvnc}{csvnc}Бренд{csvnc} Epik{csvnc}{csvnc}{csvnc}Форм-фактор{csvnc} накладка{csvnc}{csvnc}{csvnc}Материал{csvnc} термополиуретан (TPU) + стекло{csvnc}{csvnc}{csvnc}Поверхность{csvnc} гладкая, глянцевая{csvnc}{csvnc}{csvnc}Задумка{csvnc} красивый принт{csvnc}{csvnc}Функциональное обеспечение{csvnc} проемы под камеру, микрофон, регулятор громкости и внешние порты{csvnc}Конструкция 2 в 1{csvnc}{csvnc}Силиконовый бампер, Стеклянная задняя крышка, {csvnc}{csvnc}Особенности{csvnc}{csvnc}стеклянная крышка с красивым принтом, силиконовый бампер для защиты боковых торцов от повреждений, {csvnc}

Я попросил автора, чтобы он в коде модуля прописал, чтобы при сохранении результата в прайс дубли тегов автоматически удалялись бы. То есть, чтобы два тега {csvnc}{csvnc} заменялись бы на один, 3 - заменялись бы на один и т.д. Ну и последний тег, который в конце текста чтобы также удалялся, вот этот - http://prntscr.com/pt5jei 

 

Мне кажется, это было бы идеальное решение проблемы с настройкой парсинга у всех клиентов и защита от ошибки в настройках, если что-то забыли и тег разделителя задвоится... Тогда главная наша задача будет - найти и заменить все теги на тег разделителя, а дальше при сохранении модуль убрал бы дублирующие теги и все готово.

Кто за такой функционал? Отпишитесь, пожалуйста.

Надіслати
Поділитися на інших сайтах


4 часа назад, realmen80 сказал:

У поставщика вокруг атрибутов в тексте - хаос... Куча разных тегов которые приходится вырезать. После всех замен получается что тег {csvnc} дублируется по несколько раз... Где то 5 тегов подряд, где-то 4, где то 3 или 2, вот так, примерно:

Как я вам писал в личке и тут повторю. А почему не настроить изначально правильно что бы такого не было ?

4 часа назад, realmen80 сказал:

Мне кажется, это было бы идеальное решение проблемы с настройкой парсинга у всех клиентов и защита от ошибки в настройках, если что-то забыли и тег разделителя задвоится... 

я понимаю что буду выглядите как полное г*** но все же обязан написать.
Как по мне лучая зашита это правильная настройка изначально, а не наедятся на функцию. Завтра вам понадобится другое что можно решить через поиск замену или регулярные выражения, вы же не будете писать мне что бы я это жестко прописал в модуле.
 

4 часа назад, realmen80 сказал:

найти и заменить все теги на тег разделителя

Не в коем случаи, нельзя заменять все теги на {csvnc} какой в этом смысл ?.

Можно заменить только нужные теги. А остальные вырезать <{skip}>|

 

4 часа назад, realmen80 сказал:

Кто за такой функционал? Отпишитесь, пожалуйста.

поскольку я пытаюсь строить демократию, значит мой голос тоже учитывается :) Я точно против.
1. Ломает универсальность. При парсинге опций 150{csvnc}{csvnc}200{csvnc}300{csvnc} - это вполне нормальная запись. Когда у определенной опции нет количества или цены.
2. Лишено смысла, с таким успехом я могу вообше убрать страницу поиск замену и прописать что все теги вырезаются. А дубли {csvnc} заменяются на 1

Мне больно это писать.
Но если вы не хотите настроить правильно и вам нужная такая функция сделайте вот так.

 

Спойлер

J8XTs9v.png

 

Мне от одной мысли что я такое показываю плохо. :cry:
Это в корне гиблый подход который просто нивелирует все то что я делал целый год.



 

  • +1 1
Надіслати
Поділитися на інших сайтах

Только что, rozario888 сказал:

Я ничего не понял:-D Но доверяю обратной связи автора, т.к. к логичным исправлениям или доработкам он открыт

Суть предложения в том что то бы модуль сам на лету заменял два и более {csvnc} на один.

Надіслати
Поділитися на інших сайтах

Ситуативная вещь с заменой парных значений за все время не достигал подобного,  не вижу в ней смысла но вот вырезание тегов мысля интересная.

  • +1 1
Надіслати
Поділитися на інших сайтах


2 минуты назад, Kiyoshi сказал:

не вижу в ней смысла но вот вырезание тегов мысля интересная.

Вырезать все хтмл тегов ? 
По сути вырезать все html теги это правило <{skip}>| 
делать для нее отдельную кнопку как то не по христиански. 

Для начала используя <{skip}>|  вы можете удалить все html теги на определенном этапе поиск замены.
Сделав кнопку очистить текст от html тегов получится что это задание выполняется либо перед правилами поиск замена. Либо в конце.

Если в начале то это не имеет смысла.
А в конце это не всегда то что нужно. 

просто нужно понримать что это правило <{skip}>|  удаляет все html код из текста. 

Надіслати
Поділитися на інших сайтах

1 час назад, Rassol2 сказал:

По сути вырезать все html теги это правило <{skip}>| 
делать для нее отдельную кнопку как то не по христиански. 

А может Вам всё же вынести часть кода в окошко редактирования, для возможности внесения своих хотелок на php. В АОП, например, можно залезть, дописать, какие теги резать, какие пропустить и всё работает по индивидуальным хотелкам... Или включите подробное комментирование построчно в самом коде, где что изменить, чтобы хотелки исполнились )
А вообще то Вы, автор, сделали модуль, который рассчитан на продвинутых пользователей (за что Вам огромная благодарность)... а хотите раздавать его в массы. Тогда Вам придётся параллельно открывать ещё и бесплатные курсы по принципам сайтостроения, html, php, регулярным выражениям...

Надіслати
Поділитися на інших сайтах


41 минуту назад, Axelenz сказал:

А может Вам всё же вынести часть кода в окошко редактирования, для возможности внесения своих хотелок на php.

дать возможность подключать свои php скрипты у меня есть в планах еше с версии 2.0
Просто задач больше чем времени в сутках. Вот сегодня и одной строки кода не написал отвечая на вопросы. А уже конец дня. :cry:
Сейчас основные задачи на горизонте это гибридная много поточность.
а затем CRON!


А потому уже всякие скрипты на php прямые запросы sql и так адалее.
 

41 минуту назад, Axelenz сказал:

В АОП, например, можно залезть, дописать, какие теги резать, какие пропустить и всё работает по индивидуальным хотелкам...

В коде модуля ?
Ну тут кто на что гараз, в моем можно тоже залесть и дописать.

К примеру случай был, когда я еше не сделал адаптацию под 3 версию движка, был один клиент который сам себе адаптировал, и у него был тот функционал который не было в офф версии, он просто параллельно пилил под свои нужды. Это реально :)

 

41 минуту назад, Axelenz сказал:

Или включите подробное комментирование построчно в самом коде, где что изменить, чтобы хотелки исполнились )

Начнем с того что комментарии в коде у меня есть их много и они написаны не грамотно :). Да у меня проблемы с правописанием :) И с выражением мыслей. За то я красивый.

Комментарии под сами хотелки сделать довольно сложно, то что просто реализовать то я и так реализую, а у вас как правило нету хотелок которые можно было бы внедрить в код, переписать или изменив функцию. Как правило у вас хотелки уровня
"А давайте фейсбук на Python напишем ?"
 

41 минуту назад, Axelenz сказал:

А вообще то Вы, автор, сделали модуль, который рассчитан на продвинутых пользователей (за что Вам огромная благодарность)... а хотите раздавать его в массы. Тогда Вам придётся параллельно открывать ещё и бесплатные курсы по принципам сайтостроения, html, php, регулярным выражениям...

ну не я, ваши хотелки :)

Да с этим проблемы.
Но разу уже на то пошло, я стараюсь не перегружать модуль разными подходами и сохранять логику по всему модулю, частенько в ущерб себе.
И коль уже был упомянут модуль АОП , есть пару пользователей которые активно используют оба модуля.
Так вот для меня довольно странно как люди освоили АОП и у них возникают сложности в моем. :???:
Мне кажется у АОП очень высокий порог вхождения. Мне искрении жалко usergio если мне столько пишут в личку сколько же ему пишут ?

Надіслати
Поділитися на інших сайтах

Так что господа если вы видите что автора модуля в сети и не отвечают на ваш вопрос это не значит что вас игнорируют. Просто перед вами есть еше пять десять человек которые задали вопросы.
И как правило это не просто ответ да нет, это нужно переключится вникнуть в вопрос человека, подумать.
Иногда даже протестировать что бы дать правильный ответ.
И это всегда время.

Надіслати
Поділитися на інших сайтах

2 часа назад, Rassol2 сказал:

а у вас как правило нету хотелок которые можно было бы внедрить в код, переписать или изменив функцию. Как правило у вас хотелки уровня
"А давайте фейсбук на Python напишем ?"

Вы хотели пожелания ? У нас их есть )

 

P.S. Мне функционала и так хватает, имея два модуля в своём распоряжении (Ваш и АОП) могу получить практически любую информацию. А что не нравится - дорабатываю драчевым напильником.

 

 

  • +1 1
Надіслати
Поділитися на інших сайтах


рассматриваю модуль для наполнения сайта с сайтов поставщиков (без файлов csv и тд) для opencart 3

 

автор или кто пользовался, можете объяснить в чём отличие и преимущество от других модулей именно для парсинга сайтов 

Автоматическая обработка прайс листов. 
CSV Price Pro import/export

Змінено користувачем trancerr
Надіслати
Поділитися на інших сайтах


7 минут назад, trancerr сказал:

рассматриваю модуль для наполнения сайта с сайтов поставщиков (без файлов csv и тд) для opencart 3

 

автор или кто пользовался, можете объяснить в чём отличие и преимущество от других модулей именно для парсинга сайтов 

Автоматическая обработка прайс листов. 
CSV Price Pro import/export

В том что эти модули что вы описали это обработчики прайс листов.
Им для работы нужен прайс лист, а для моего нужно иметь только ссылку на сайт который хотите парсить и все. дальше модуль сам собирает ссылки и парсит.

Надіслати
Поділитися на інших сайтах

Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.