Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

Донор https://magnat.md/ количество товаров +-4000 в наличий, (на первом сайте количество Ссылок в проекте: 12483, на втором изначально будет 3700) 
Действие: обновление цены и количества с догрузкой новых товаров.
Новые товары появляются 1-2 раза в месяц, количеством до 200 штук.
Большое спасибо за ответы.

Надіслати
Поділитися на інших сайтах


01.06.2022 в 00:03, Yellow1337 сказал:

Донор https://magnat.md/ количество товаров +-4000 в наличий, (на первом сайте количество Ссылок в проекте: 12483, на втором изначально будет 3700) 
Действие: обновление цены и количества с догрузкой новых товаров.
Новые товары появляются 1-2 раза в месяц, количеством до 200 штук.
Большое спасибо за ответы.

При таких количествах использовать все 5 потоков с двух сайтов смысла нет.

Есть пословица: «Тише едешь – дальше будешь»...

Лучше всего эмпирическим путем найти золотую середину для каждого сайта, за сколько часов и во сколько потоков всё приемлемо спарсится, а не долбить донора по максимуму )

Да и свой хостинг нагружать... так себе перспектива...

Змінено користувачем Axelenz
Надіслати
Поділитися на інших сайтах


31.05.2022 в 23:32, Yellow1337 сказал:

 


Даже если это два разных сайта которые находятся на разных доменах?

Извините. Недопонял вопрос и мой ответ получился не в тему

Надіслати
Поділитися на інших сайтах


@Yellow1337 поскольку язык программирования php не поддерживает много поточность, то запустить 2 совершенно разных проекта в одно время с одного сайта не возможно. Много поточность в модуле устроена на уровне библиотеке curl но это чисто для запросов и не имеет отношение к логике модуля.

Надіслати
Поділитися на інших сайтах

Добрый день! 

Помогите пожалуйста, подскажите как можно обойти защиту Cloudflare?

 

Скрытый текст
  1. #[url]https://www.svyaznoy.ru/catalog/phone/1495/1414207[/url]
  2. <!DOCTYPE html>
  3. <!--[if lt IE 7]> <html class="no-js ie6 oldie" lang="en-US"> <![endif]-->
  4. <!--[if IE 7]> <html class="no-js ie7 oldie" lang="en-US"> <![endif]-->
  5. <!--[if IE 8]> <html class="no-js ie8 oldie" lang="en-US"> <![endif]-->
  6. <!--[if gt IE 8]><!--> <html class="no-js" lang="en-US"> <!--<![endif]-->
  7. <head>
  8.  
  9. <title>Please Wait... | Cloudflare</title>
  10.  

 

Надіслати
Поділитися на інших сайтах


01.06.2022 в 07:19, anvar1 сказал:

Добрый день! 

Помогите пожалуйста, подскажите как можно обойти защиту Cloudflare?

 

  Скрыть содержимое
  1. #[url]https://www.svyaznoy.ru/catalog/phone/1495/1414207[/url]
  2. <!DOCTYPE html>
  3. <!--[if lt IE 7]> <html class="no-js ie6 oldie" lang="en-US"> <![endif]-->
  4. <!--[if IE 7]> <html class="no-js ie7 oldie" lang="en-US"> <![endif]-->
  5. <!--[if IE 8]> <html class="no-js ie8 oldie" lang="en-US"> <![endif]-->
  6. <!--[if gt IE 8]><!--> <html class="no-js" lang="en-US"> <!--<![endif]-->
  7. <head>
  8.  
  9. <title>Please Wait... | Cloudflare</title>
  10.  

 

Здравствуйте.
Если идет речь о том что бы обмануть зашите когда вас поставили на карандаш, то сложно. Нужно подменять все начиная от ip заканчивая заголовками и искать как вас детектят. Гораздо проше изначально не создавать чрезмерную нагрузку что бы не попадаться в эту ситуацию.

Надіслати
Поділитися на інших сайтах

01.06.2022 в 19:56, Rassol2 сказал:

Если идет речь о том что бы обмануть зашите когда вас поставили на карандаш

Нет, не ставили на карандаш. Я даже можно сказать не посещал сайт. Пробовал совсем из разных ip-регионов (по удаленки из разных стран). Сайт как-то определяет и блокирует парсер, а через браузер без проблем. Подложить куки и другие запросы не дал результатов. Поэтому решил тут обратится в надежде вдруг кто-то пробивал такую защиту и подскажет как это сделать.

Надіслати
Поділитися на інших сайтах


Доброго времени суток!

хочу получить 4 фото, но регулярка дает либо 4 фото и дополнительный мусор, который не могу удалить

либо делаю другое регулярное выражение которое собирает только одно фото, скрины приложил.

подскажите куда правильно копать.7

photo.png

photo2.png

Надіслати
Поділитися на інших сайтах


02.06.2022 в 14:25, dmitriymkey сказал:

Доброго времени суток!

хочу получить 4 фото, но регулярка дает либо 4 фото и дополнительный мусор, который не могу удалить

либо делаю другое регулярное выражение которое собирает только одно фото, скрины приложил.

подскажите куда правильно копать.

А для сбора фото используете какой тип границы Обычный или Повторяющийся ?

Надіслати
Поділитися на інших сайтах


02.06.2022 в 16:02, dmitriymkey сказал:

получилось, вот  так сделал и все ровничком.

Для этого автор модуля специально и создал Повторяющиеся границы...

https://simplepars.top/index.php?page=note&n=8

  • +1 1
Надіслати
Поділитися на інших сайтах


Добрый день!  Поиск замена

 

есть тайтл  

1) Omega-3 Fish Oil 1000 mg (100 softgels)

2) с него вытаскиваю: {skip}Omega{.*}|Omega

    Omega|Назначение{csvnc}Для сердца и сосудов

 

И получается атрибут Назначение{csvnc}Для сердца и сосудов

 

Ноооо.....тайтлов много, и если допустим  в них нет Omega (а только Fish Oil 1000 mg (100 softgels)) то отдает Fish Oil 1000 mg (100 softgels), а надо в таком случае пустоту

 

Хорошо подошла б такая штука (  if, elif, else ) 

 

{if[берет тайтл{=}Omega]}Назначение{elif[Omega]}Назначение{csvnc}Для сердца и сосудов{else}0

0|

 

Но в поиск замене как его реализовать ? 

 

что здесь прописать {if[....{=}Omega]} ? 

 

Или есть какой то другой вариант ?

В донора атрибутов нет, в фильтр вручную наверное проставляли, я вытаскиваю с тайтла и пробую создать 

 

 

Надіслати
Поділитися на інших сайтах


03.06.2022 в 15:36, Andr777 сказал:

Хорошо подошла б такая штука (  if, elif, else ) 

 

{if[берет тайтл{=}Omega]}Назначение{elif[Omega]}Назначение{csvnc}Для сердца и сосудов{else}0

0|

 

Но в поиск замене как его реализовать ? 

А для этого как раз и существуют регулярные выражения.

https://simplepars.top/index.php?page=note&n=37

Змінено користувачем Axelenz
  • +1 1
Надіслати
Поділитися на інших сайтах


03.06.2022 в 15:44, Axelenz сказал:

А для этого как раз и существуют регулярные выражения.

:D 

 

Подскажите как реализовать ? ) а то что то даже не понимаю за что зацепится  

Надіслати
Поділитися на інших сайтах


03.06.2022 в 07:51, Andr777 сказал:

:D 

 

Подскажите как реализовать ? ) а то что то даже не понимаю за что зацепится  

Давно не практиковался но где то так можно решить.
{reg[#(.*?)(Omega).*|(.*)#]}|$2

 

В случаи с омегой.

Скрытый текст

Svn7c3Y.png

В случаи без нее.

Скрытый текст

NkZfnJy.png

 

  • +1 1
Надіслати
Поділитися на інших сайтах

03.06.2022 в 17:49, Rassol2 сказал:

Давно не практиковался но где то так можно решить.
{reg[#(.*?)(Omega).*|(.*)#]}|$2

 

В случаи с омегой.

  Скрыть содержимое

Svn7c3Y.png

В случаи без нее.

  Скрыть содержимое

NkZfnJy.png

 

СПАСИБО БОЛЬШОЕ!!! 

Надіслати
Поділитися на інших сайтах


03.06.2022 в 10:47, Andr777 сказал:

СПАСИБО БОЛЬШОЕ!!! 

Не за что.

  • +1 1
Надіслати
Поділитися на інших сайтах

Я в регулярках не силен, поэтому всегда стараюсь обойтись без них (как когда-то говорил автор "многое можно решить без регулярок") :) . Уже когда совсем никак - иду на форум за помощью.

Если брать конкретно ваш пример с Омегой, то можно сделать через 2 замены:

{skip}Omega{.*}|Omega

{skip}Любое другое слово из title (fish, oil и т.п.){.*}|

Первое условие меняет title на омега. Второе условие уберет все, если в title не было Омега.

Надіслати
Поділитися на інших сайтах


Может кто сталкивался или подскажет. Как спарсить цены на кровати БЕЗ подъемного мех-ма?

Цены выводятся в скрипте (если я правильно понял) и я не смог найти уникальный идентификатор для цены кровтаи БЕЗ подъемного мех-ма. Т.е на выходе я получаю все цены (с ПМ и без). Как их можно исключить?

P.S. да уж, написал я не сильно понятно, наверно ( Может хоть по скрину будет понятно, что я хочу

 

 

Скрытый текст

image.png.6a15e3e4f76c6abcb642eadca49e813c.png

 

 

image.png.fd4241b162f17f7952d9c225744ddf58.png

 

Надіслати
Поділитися на інших сайтах


05.06.2022 в 12:20, Aspirinnka1 сказал:

P.S. да уж, написал я не сильно понятно, наверно ( Может хоть по скрину будет понятно, что я хочу

 

Что хотите вполне понятно, но Вы дали уже следствие Ваших действий, а нужно видеть изначальную страницу самого донора, а не её интерпретацию.

Надіслати
Поділитися на інших сайтах


05.06.2022 в 11:51, Aspirinnka1 сказал:

Если брать конкретно ваш пример с Омегой, то можно сделать через 2 замены:

{skip}Omega{.*}|Omega

{skip}Любое другое слово из title (fish, oil и т.п.){.*}|

Первое условие меняет title на омега. Второе условие уберет все, если в title не было Омега.

Такая конструкция имеет недостаток. А что, если не во всех title встречается это ключевое слово ?

Для этого необходимо сначала добавить ключевое слово, например, в начало текста, а потом уже удалять по нему... 

Надіслати
Поділитися на інших сайтах


пардон, забыл. вот она https://www.gn.by/deyton-kn-27l.html

Тут, пока ковырялся пришла одна мысль. Вывести цены в обычной границе парсинга. через поиск/замену привести их к виду:

цена1 

цена2

цена3

и т.д.

А потом, используя регулярное выражение, удалить 2,4,6,8,10 строчки.  На нечетных строках идет цена кровати БЕЗ пм.

 

2 момента только. Очень большя граница получается, очень много лишнего текста. Сама цена идет в таком виде "price":"1250.2500"}

Можно как-то оставить в тексте все что начинается на "price":" и заканчивается "} ?

через skip не получилось сделать

 

 

Скрытый текст

image.thumb.png.2303b3a4547c19e6dbe6d7e6fa6d3aef.png

 

Змінено користувачем Aspirinnka1
Надіслати
Поділитися на інших сайтах


05.06.2022 в 13:37, Axelenz сказал:

Для этого необходимо сначала добавить ключевое слово, например, в начало текста, а потом уже удалять по нему... 

Да, правильно. Либо использовать границы парсинга как ключевое слово. Не претендую на наилучшее решение. )

  • +1 1
Надіслати
Поділитися на інших сайтах


05.06.2022 в 12:37, Aspirinnka1 сказал:

2 момента только. Очень большя граница получается, очень много лишнего текста. Сама цена идет в таком виде "price":"1250.2500"}

Можно как-то оставить в тексте все что начинается на "price":" и заканчивается "} ?

через skip не получилось сделать

Почистите немного от мусора, будет видно, какие границы оставить, а что удалить

 

\t|
\r\n|{br}
\|
{reg[#\s{2,}#u]}|{br}

 

Надіслати
Поділитися на інших сайтах


Здравствуйте. Посоветуйте пожалуйста, может кто сталкивался и знает решение.
Проблема появилась после парсинга товаров. Этот же проект запускался на другом сайте и там все прошло без проблем. Разница в том что для сайта scutece была добавлена проверочное правило (по названию категорий), чтобы добавить только детские товары. Товары добавились без проблем, но после перевода на второй язык появилась проблема. Когда захожу в редактор товаров и ставлю фильтр по категориям выбивает ошибку сервер не отвечает, а потом не получается получить доступ к сайту. 

 

Скрытый текст

1984847503__viber_2022-06-05_17-35-06-541.thumb.jpg.ac66e2766a346e4e4a5ec3ee765cbf25.jpg1193532948__viber_2022-06-05_17-35-06-609.thumb.jpg.00d045f335e3cbe05b173f5a8d61fcb6.jpg


Через домашний интернет зайти на сайт или в админ панель не могу с вчерашнего дня.
Через мобильный только до тех пор пока не зайду в товары или категории. Потом некоторое время сайт и админка недоступны даже с мобильного интернета.
Через модуль парсинга удалил все новые товары, фото и категории. Потом сделал бэкап с 3 числа, но проблема не пропала.

Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.