Jump to content
Search In
  • More options...
Find results that contain...
Find results in...

Axelenz

Users
  
  • Posts

    744
  • Joined

  • Last visited

Everything posted by Axelenz

  1. Неправильный формат файла настроек. Как не пробовал через экспорт и импорт перенести настройки - ничего не получается. Выдаёт всё время ошибку, что вверху... Пробовал без ссылок, поскольку ссылочная масса больше 80,000...
  2. <ul> <li class="home" itemscope itemtype="http://data-vocabulary.org/Breadcrumb"><a itemprop="url" href="//veliki.com.ua/"><span itemprop="title"></span></a></li> <li itemscope itemtype="http://data-vocabulary.org/Breadcrumb"><a itemprop="url" href="//veliki.com.ua/dir_bikes.htm"><span itemprop="title">Велосипеды</span></a></li> <li itemscope itemtype="http://data-vocabulary.org/Breadcrumb"><a itemprop="url" href="//veliki.com.ua/bikes/brand=Intenzo/"><span itemprop="title">Велосипеды Intenzo</span></a></li> <li itemscope itemtype="http://data-vocabulary.org/Breadcrumb"><a itemprop="url" href="//veliki.com.ua/dir_cross_country.htm"><span itemprop="title">Горные велосипеды</span></a></li> <li itemscope itemtype="http://data-vocabulary.org/Breadcrumb"><a itemprop="url" href="//veliki.com.ua/bikes/brand=Intenzo/filter=biketype:mountain/"><span itemprop="title">Горные велосипеды Intenzo</span></a></li> <li itemscope itemtype="http://data-vocabulary.org/Breadcrumb"><span itemprop="title">Велосипед Intenzo Dakar 26"</span></li> </ul> Нужны "Горные велосипеды", например.
  3. И опять же из раздела хотелок... Иногда при парсинге бывает нужно, например, с "хлебных крошек" выдернуть всего лишь одно или несколько значений, а не все. Они могут использоваться не только в качестве категории... Может в "Повторяющихся границах парсинга", после "Пропустить вхождения" добавить окошко, где можно было бы задать конкретное число, сколько спарсить "крошек" после пропуска ? В моей задаче, например, на сайте была вложенность - 6 "крошек", с которые реально мне нужно было 1-2. Понятно, что всё это возможно сделать и в Excel, но всё же...
  4. И ещё полезные хотелки... Иногда при парсинге, например, списка типа: <ul class="123"> <li>...</li> ... <li>...</li> </ul> самым доступным способом выделения необходимого текста является указание границ парсинга <ul class="123"> и </ul> соответственно... Но не хватает небольшой такой галочки, поставив которую мы получаем включение границ парсинга в то, что парсим. Т.е., чтобы модуль спарсил не <li>...</li> ... <li>...</li> а включил в текст парсинга и сами границы и получаем на выходе <ul class="123"> <li>...</li> ... <li>...</li> </ul> Понимаю, что разными способами можно потом это дописать, подменить и использовать прочие антигемморойные штучки, но зачем ??? Если можно всего лишь дописать программно, чтобы границы парсинга имели вхождение в текст парсинга при включении соответствующей галочки ? Это ведь намного упростит некоторые задачи...
  5. Из пожеланий, чего не хватало в работе версии 1.3. 1. Анализатор времени (можно даже с опцией включения/выключения). Например, когда необходимо парсить большое количество ссылок, выводится время сколько потрачено и приблизительно анализируется время, которое ещё осталось до конца парсинга. 2. Парсинг при условии. Т.е. возможность задать какое-то отдельное условие (например, если на странице есть "товар в наличии") при выполнении которого выполняется парсинг страницы. В остальных случаях парсинг не производиться, т.е. работа парсера ускоряется и на выходе получаем необходимый прайс без дополнительной обработки. Можно даже предусмотреть вывод сразу в два прайса, т.е. разделение по выполнению/не выполнению условия...
  6. Попробуйте создать "не удобные" условия, в которые может загнать модуль любой пользователь. Запустите парсинг и перейдите в это время на вторую закладку и переименуйте название границы (я попробовал переименовать границу, которая потом используется дальше как "Область для повторяющей границы парсинга "). Наверное нужно сделать так, чтобы при переходе на любую из страниц парсинг автоматически останавливался, как при нажатии на "стоп" ? С доступом проблема, мучаю модуль на локалке )
  7. При изменении одного из наименования границ почему-то переименовались сразу все границы ( Пользуюсь самой последней версией. Зря Вы не меняете нумерацию версий при внесении изменений...
  8. Очень круто было бы иметь возможность подсовывать в закладку "Сбор ссылок" границы ссылок для проверки, например, есть ли на странице указанные SKU. Т.е. чтобы модуль выборочно искал конкретные данные. Иногда SKU встречается и в самой ссылке, но это бывает очень редко...
  9. Спасибо за новые версии! В плане рекомендации и пожелания. На вкладке "Настройки парсинга" не лучше ли сделать, чтобы при открытии вкладки по умолчанию подхватывалась [0] ссылка с выключенным "Привью сайта" ? И надпись "Warning! Не выбрана ССЫЛКА для просмотра кода --->" как бы ни к чему... Потому, как приходится много лишних телодвижений делать... нажми туда, нажми сюда... Всё равно ведь приходится посматривать при внесении границ, что получится на выходе. И ещё заметил особенность, что иногда то, что показывает на этой вкладке не всегда соответствует тому, что получим на "Пред.просмотре" ! Поэтому если вижу, что получаю не то, что хотел, но знаю, что указал правильные границы парсинга, дополнительно проверяю предпросмотром... Ну или хотя бы, как вариант, при выборе названия границы через "Выбор границы парсинга", автоматом пусть бы подхватывалась [0] ссылка с выключенным "Привью сайта". "Предпросмотр" границы не должен работать, когда не указано явно "Название границ". "Привью сайта" не должно работать, когда не указано явно "Название границ". Лучше ставить везде "защиту от дурака"... Иногда бывают случаи, что необходимо посмотреть не любую страницу из спарсенных, а проверить конкретную страницу. Может не помешал бы поиск или явное указание страницы, чтобы дальше все проверки ("Пред просмотрт границы" и "Пред просмотр" на следующей вкладке "Запуск парсинга данных") производились именно на конкретно указанной (зафиксированной) странице ?
  10. Благодарю за потраченное время. Модуль не раз помогал в парсинге. Жаль, конечно, что у Вас нет времени на его дальнейшее развитие в плане более универсального парсера, которому под силу сложные защищающиеся сайты (
  11. Подскажите, а возможно ли обходить каптчу при данном функционале модуля ? Перепробовал автоматические перегрузчики user agent, прокси - не помогает ) Даёт спарсить определённое количество товара и выходит на каптчу... (
  12. И ещё из области хотелок... Можно в excel настругать ссылок поиска товара типа: сайт + код товара, например вот такого плана https://usavitamines.com/catalog/search/?q=CLF-08192 а модуль всё это преобразует каким-то чудесным образом в прямые ссылки на товар... как-то так: https://usavitamines.com/vitaminy-dlya-zhenshchin-multivitamins-country-life-60-tabletok-clf-08192/ ну или хотя бы проверит ссылки на нахождение на сайте товара с таким кодом... Это, чтобы не сканировать весь сайт, если на нём десятки тысяч товаров, а указать только необходимые. Предвижу вопросы, а почему не указать сразу в фильтре модуля коды необходимые. Ответ: да потому, что не всегда это так однозначно красиво на практике...не все ссылки составлены по этой логике, но по коду находятся все...
  13. Благодарю за ответы и за труды Ваши ) Object { status: "go", msg: "Производится парсинг", other: Object } index.php:1135:21 Object { status: "go", msg: "Производится парсинг", other: Object } index.php:1135:21 Object { status: "go", msg: "Производится парсинг", other: Object } index.php:1135:21 Object { status: "go", msg: "Производится парсинг", other: Object } index.php:1135:21 Object { status: "go", msg: "Производится парсинг", other: Object } index.php:1135:21 Object { status: "go", msg: "Производится парсинг", other: Object } index.php:1135:21 Object { status: "go", msg: "Производится парсинг", other: Object } index.php:1135:21 Object { status: "go", msg: "Производится парсинг", other: Object } index.php:1135:21 SyntaxError: JSON.parse: unexpected character at line 1 column 1 of the JSON data[Подробнее] jquery-2.1.1.min.js:4:5304 Консоль на задержке...
  14. Ссылки то были, но сам парсинг не шёл до тех пор, пока не нажать "Обновить страницу". Просто был режим простоя, ожидания чего-то... И сегодня снова остановился на парсинге одного сайта на средине и пришлось давать пинок ) Сейчас снова проверил на том же сайте - опять останавливается и нужно обновляться... ( 2019-01-19 19:09:53| Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://biotus.com.ua/pangamovaja-kislota-vitamin-v15-cyto-pharma-100-kapsul.html 2019-01-19 19:12:08| Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://biotus.com.ua/vitamin-v17-amygdalin-100-mg-100-tabletok.html Разницу по времени посмотрите... это подвисание и перегруз вручную...
  15. Тогда ещё хотелка - проверка работы самого парсера, не "спит" ли он. Иногда приходится нажимать "Обновить страницу", чтобы парсинг продолжился... а был однажды сайт, для которого пришлось делать даже скрипт-нажималку на "перегрузить" потому, что буквально пару товаров и подвисание... только постоянный перегруз и помогал, а товаров там было пару тысяч, а сидеть и нажимать на кнопку самому - это уже уход от автоматизма и переход на ручное управление... теряется время на монотонную рутинную работу ( P.S. Тогда необходимо определиться, какое время считать неприлично долгим и зависанием в работе парсера...
  16. Сайты всё больше защищаются от парсинга ) Я когда-то предложил @usergio сделать рандомную задержу и он это сделал в модуле АОП, спасибо ему за труды. Предлагаю и Вам сделать подобное. Например: галочка возле выбора паузы "Randomize". Поставил галку и уже выбор паузы идёт автоматом в указанных пределах ) Но и это ещё не всё... рекомендую кроме этого реализовать что-то типа "Задержки парсинга". Т.е. чтобы парсинг переходил в спящий режим через указанный промежуток времени (он уже в отличие от паузы должен исчисляться не секундами, а десятками минут!). Думаю, что это очень сильно поставит в тупик "антиботы" сайтов...
  17. Логика "И" очень полезна, но работает ведь только когда есть, к примеру, одна категория и указываем .html как окончания ссылок, чтобы не захватывать лишнее. Но когда категорий не одна, тогда с чем "И", .html с категорией или категории друг с другом... не работает так. Лучше вынести эту логику, например, в третий столбец, тогда можно выставить, что окончание .html, к примеру, указано для всех категорий...
×
×
  • Create New...

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.