Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

Подскажите пожалуйста. Чем ограничивается кол-во потоков в парсинге в ИМ (если парсинг идет с файла XML, который я предварительно скачиваю себе на сервер). Можно ли вместо 10 потоков поставить условно говоря 50 , 100, 200? Тут все упирается в железо как я понимаю? 

Надіслати
Поділитися на інших сайтах


20.02.2022 в 21:11, egortide сказал:

Подскажите пожалуйста. Чем ограничивается кол-во потоков в парсинге в ИМ (если парсинг идет с файла XML, который я предварительно скачиваю себе на сервер). Можно ли вместо 10 потоков поставить условно говоря 50 , 100, 200? Тут все упирается в железо как я понимаю? 

Здравствуйте верно все управляется в выделенные ресурсы для сайта если ограничений нет можете установить сколько захотите главное чтобы хост успел обработать все иначе положите свой сайт.

Змінено користувачем Kiyoshi
Надіслати
Поділитися на інших сайтах


Впервые настраиваю парсинг
Помогите пожалуйста с правилами для поиск-замены,никак не поддается :o

                            <tr class="product-features__row">
                    <th class="product-features__cell product-features__cell--h">
                        Происхождение                                            </th>
                    <td class="product-features__cell">
                                                    Цейлон                                            </td>
                </tr>
                            <tr class="product-features__row">
                    <th class="product-features__cell product-features__cell--h">
                        Вес, грамм                                            </th>
                    <td class="product-features__cell">
                                                    100 г                                            </td>
                </tr>
                            <tr class="product-features__row">
                    <th class="product-features__cell product-features__cell--h">
                        Упаковка                                            </th>
                    <td class="product-features__cell">
                                                    Металлическая банка                                            </td>
                </tr>

Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 21:53, forrest сказал:

Впервые настраиваю парсинг
Помогите пожалуйста с правилами для поиск-замены,никак не поддается

Это обычный классический вариант Атрибутов.

В обычной границе парсинга указываем границы захвата, например, всей таблицы от <table> и до </table>.

В повторяющейся границе уже указываете границы от <tr> до </tr>. Ну и понятно, что делаете чистки всего лишнего, чтобы возможно было произвести этот захват границ...

 

https://simplepars.top/index.php?page=note&n=22

Змінено користувачем Axelenz
Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 22:00, forrest сказал:

это уже код границы атрибутов,а как расписать правила замен не пойму

https://simplepars.top/index.php?page=note&n=9

 

тут примеры регулярных выражений, с помощью которых можно всё лишнее убрать.

 

У Вас очень простой пример, без усилий всё решаемо...

<table> и </table> - это указать в обычной границе.

<tr class="product-features__row"> и </tr> - это указать в повторяющихся границах.

 

Дальше в Поиск/Замене указываете правила:

</th>|{csvnc}

<{skip}>|

{reg[#^\s+|\s+$#mu]}|

 

примерно так...

Змінено користувачем Axelenz
Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 22:50, forrest сказал:

что еще не то...
в любом случае,спасибо за помощь

Пробелы все лишние удалять необходимо. Я писал уже на форуме неоднократно про удаление пробелов, каким образом это достигается, поищите, почитайте...

Змінено користувачем Axelenz
Надіслати
Поділитися на інших сайтах


мой код замены

 </th>|{csvnc}

<{skip}>|
</td>|{csvnc}
 </tr>|{csvnc}
{br}|
{reg[#^\s+|\s+$#mu]}|
{reg[#\s{2,}#]}|
результат
Происхождение{csvnc}Цейлон{csvnc}Вес, грамм{csvnc}100 г{csvnc}Упаковка{csvnc}Металлическая банкаТип чая{csvnc}ЗеленыйВид чая{csvnc}РассыпнойБренд{csvnc}MlesnaЛист{csvnc}КрупнолистовойФорма{csvnc}Листовой

{csvnc} - недостающие

 

Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 23:06, forrest сказал:

{csvnc} - недостающие

Нужно было указывать его, как подавал автор модуля, я же не зря давал ссылку...

 

https://i.imgur.com/Rt6pDzV.png

Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 23:13, forrest сказал:

тут у меня есть разделитель

а что у Вас в повторяющихся границах, покажите скрин, вот тут

https://i.imgur.com/6CcUPrm.png

Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 23:22, forrest сказал:

в настройках границ атрибут(повторяющихся),а в то поле ничего не подгружает совсем

при той картинке, что Вы скинули, вполне достаточно указать

</th>|{csvnc}

чтобы получить все нужные переносы...

Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 23:29, forrest сказал:

правило было в списке,но...

Вы показываете маленькие вырезки и думаете, что всем всё будет понятно... но это не так. Вот именно поэтому автор модуля даёт картинки расширенные, где видна всегда полная картина, что откуда берётся, чтобы не возникало ни у кого дополнительных вопросов...

Надіслати
Поділитися на інших сайтах


это не вырезки,это весь код

</th>|{csvnc}

<{skip}>|
</td>|{csvnc}
 </tr>|{csvnc}
{br}|
{reg[#^\s+|\s+$#mu]}|
{reg[#\s{2,}#]}|

для преобразования этого кода атрибутов
                            <tr class="product-features__row">
                    <th class="product-features__cell product-features__cell--h">
                        Вес, грамм                                            </th>
                    <td class="product-features__cell">
                                                    500 г                                            </td>
                </tr>
                            <tr class="product-features__row">
                    <th class="product-features__cell product-features__cell--h">
                        Упаковка                                            </th>
                    <td class="product-features__cell">
                                                    Пакет из фольги                                            </td>
                </tr>

пока результат вот такой
Вес, грамм{csvnc}500 гУпаковка{csvnc}Пакет из фольгиТип чая

не хватает одного разделителя...что уже не пробовал

п.с.все методички автора пересмотрел...извините только учусь
                   

 

Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 23:37, forrest сказал:

п.с.все методички автора пересмотрел...извините только учусь

у Вас что, нет возможности предоставить хотя бы полноразмерный скрин, как у автора ?

https://simplepars.top/index.php?page=note&n=22

Надіслати
Поділитися на інших сайтах


В 20.02.2022 в 23:37, forrest сказал:

</th>|{csvnc}

<{skip}>|
</td>|{csvnc}
 </tr>|{csvnc}
{br}|
{reg[#^\s+|\s+$#mu]}|
{reg[#\s{2,}#]}|

вот это всё я давал для повторяющихся границ, 

Надіслати
Поділитися на інших сайтах


Доброго времени суток всем!
Вот я запускаю Парсинг в ИМ (беру данные с файла XML). Исходные данные: 86 тысяч товаров.
Парсил в следующих вариантах:

10 потоков - заняло 1 час 44 мин
50 потоков - заняло 1 час 22 мин
200 потоков - заняло 1 час 14 минут.

 

сейчас пробую на 500, но понимаю, что время существенно не изменится. Как этот процесс можно ускорить? у меня хороший выделенный сервер, ресурс мощности большой. @Rassol2 Очень хочу услышать Ваше мнение)
Спасибо!

 

Надіслати
Поділитися на інших сайтах


20.02.2022 в 18:01, egortide сказал:

Доброго времени суток всем!
Вот я запускаю Парсинг в ИМ (беру данные с файла XML). Исходные данные: 86 тысяч товаров.
Парсил в следующих вариантах:

10 потоков - заняло 1 час 44 мин
50 потоков - заняло 1 час 22 мин
200 потоков - заняло 1 час 14 минут.

 

сейчас пробую на 500, но понимаю, что время существенно не изменится. Как этот процесс можно ускорить? у меня хороший выделенный сервер, ресурс мощности большой. @Rassol2 Очень хочу услышать Ваше мнение)
Спасибо!

 

По этой причине и нет большого смысла ставить больше 5 потоков.
Мое мнение. Ускоряйте работу базы данных. Установите версию php 7.4 она самая быстра из доступных.
Ну и поскольку все же это работа через веб сервер то можете и его подкрутить.
Но в остальном данная функция размешена в логику парсера, и в этой логик изменив что то в модуле существенно не придать скорости.


Ну если считать что 86 000 товаров за примерно 1.5ч это плохой результат :rolleyes:

Надіслати
Поділитися на інших сайтах

21.02.2022 в 03:07, Rassol2 сказал:

Ну и поскольку все же это работа через веб сервер то можете и его подкрутить.

Спасибо за ответ. не понял только этот пункт, поясните пожалуйста)

результат неплохой. просто кол-во товаров для обновления в файле XML будет достигать 700 тысяч. Это будет не меньше 10 часов:(

Змінено користувачем egortide
Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.