Jump to content

stas2010

Пользователи
  • Content Count

    239
  • Joined

  • Last visited

Community Reputation

48 Обычный

About stas2010

  • Rank
    Продвинутый пользователь

Информация

  • Город:
    Минск

Recent Profile Visitors

The recent visitors block is disabled and is not being shown to other users.

  1. сделать пару закладок: 1. Спарсилось 2. Не спарсилось в них соответствующие ссылки. для второго пункта рядом с ссылками указать код ошибки. можно также сделать напротив ссылки кнопку "Добавить в список", а на странице самой закладки "Поместить в список для парсинга". можно просто в закладке вывести в таком виде: Не спарсилось Добавить все ссылки (для парсинга) Ошибка 404: ========== ссылка 1 Добавить в список Посмотреть (открыть в новой вкладке и посмотреть страницу в броузере) ссылка 2 Добавить в список Посмотреть Ошибка 503 ========== ссылка 3 Добавить в список Посмотреть ссылка 4 Добавить в список Посмотреть и т.д. Первую вкладку аналогично, только без разделения на ошибки. Также можно добавить кнопку для быстрого перехода в редактор границ с подстановкой выбранной ссылки В "Не спарсились" также можно добавить ссылки, которые не спарсились по условиям (для проверки этих самых условий парсинга)
  2. В продолжение темы фото в описании - довольно часто в описании попадаются и документы pdf, doc и т.п - описания, инструкции, каталоги, листалки. их бы тоже не плохо бы сразу себе на сайт закидывать с описанием. вот примеры: http://www.popuri.by/site/books/17187/22410/39971/51013 https://www.chitai-gorod.ru/catalog/book/1253785/ http://www.tools.by/?q=kat/p940448
  3. да, есть такое, спасибо. ссылка вытягивается. не на всех донорах есть вся необходимая информация. такой подход решит проблему формирования названий, описаний и т.п., когда необходимо склеить данные с двух доноров, с прайса и донора сразу при парсинге. например, нам надо получить название товара "Светодиодная лампа Philips 9W 3000K (978123456780), Артикул - LED9W-123" 1. Из прайса пришло в базу, например, Название "Лампа 9 Ватт", в атрибутах имеем "9w", "3000K", "978123456780", "LED9W-123", 2. На сайте донора имеем "LED Phillips 9 ватт", описание, и артикул LED9W-123. Парсим сайт из-за хорошего описания и парочки дополнительных атрибутов. Теперь надо склеить данные из п.1 и п.2 Присвоив границе значение атрибута всё сразу решается быстро и удобно. После обработки поиск-заменой и склеивания нескольких границ можно получить требуемый результат, который хоть в csv, хоть в ИМ сразу. Пока другого решения имеющимся функционалом не вижу.
  4. А как реализовать такое: Если {gran_1} не пустое, то артикул = {gran_1}, иначе, артикул = {gran_2} ? и т.п. это как раз для тех доноров, где на части товаров есть артикулы, штрихкоды или т.п., а на части товаров их нет, т.е. часто приходится просто название в артикул вбивать.
  5. В настройках парсинга есть тип границы парсинга (обычная и повторяющаяся). Можно туда же добавить другие типы границ, например, "Атрибут", "EAN", "Категория", "Название", "Тэги", и т.п., с чем необходимо работать. Для "Атрибут" выбираем из списка атрибутов магазина, для других типов - соответственно или из имеющегося списка или в поле создаем/берем. Тут правда действительно надо подумать, к чему привязаться, чтобы вытащить для определенной карточки товара. При этом придется сначала как-то задать тот же артикул или спарсить его же или имя, модель товара.... это будет актуально при обновлении товаров. в общем, мысли вслух На выходе получим границу "Атрибут: Мощность LED" {gran_1234} со значение 9W. А теперь уже с этой границей делаем что хотим - сравниваем для добавления, добавляем к другим границам и получаем новые атрибуты, названия, описания и др. Это можно и в редакторе товара потом использовать и при обновлении товара сразу же создавать новые данные из имеющихся в базе. Есть еще один вопрос - как из ссылки вытянуть данные? В csv есть пункт "Ссылка", а больше я её не видел нигде. В примере выше указывал, что в ссылках могут быть и артикулы и другие данные, а вот границу на базе ссылки тоже не сделать. Кстати, как одно из решений для "кривых" сайтов - можно в качестве артикула использовать и часть ссылки, она же будет и сео. тогда проблема решится при необходимости иметь один и тот же товар но по разным категориям или другим параметрам, т.е. получим копию донора.
  6. Дополню, что создавая границы из данных из базы своего магазина можно при новом функционале сравнения избавиться от перезаписывания уже созданных и обработанных данных в товарах, что часто происходит при Обновлении.
  7. думаю, что надо. пример тому - использование, как мы уже в личке обсуждали, например, заранее готового списка ссылок - часто использую на сайтах поисковые запросы со штрихкодом. т.е. отправляешь донору сегодня 50000 ссылок, он отдает, например, 20000, т.е. сегодня в его базе 20000 товаров, а на остальные донор может дать и 404 ошибку или другую. через неделю на доноре появились еще 1000 товаров, которые были сегодня в списке ссылок с ошибками. т.е. не надо будет весь список потом заново лопатить, а просто повторно запустить те, что с ошибками. опять же часто встречал сайты, которые банили на некоторое время, а потом при втором парсинге ссылки удавалось вытянуть, но приходилось вручную их потом вытягивать. а за обновку СПАСИБО !!! скоро с таким подходом и реализацией все идеи "чего бы еще добавить" закончатся Ждем для csv и возможность работы с уже имеющимися атрибутами в товаре . Кстати, почему бы в редакторе границ просто не сделать возможность присваивать границе значение атрибута? к тому же теперь и обработка условий появилась.
  8. с округлением может сделать также как и другие делают? В Беларуси, как и в России сейчас рубли и копейки, и округление у кого как - до сотых, десятых и целых.
  9. по категориям "сопоставить категории" как в АОП - "Название категории на сайте-доноре" и "Соответствует вашей категории" и автоматом добавлять в этот список новые категории с донора, которых нет на сайте, чтобы потом не плодить дубли категорий и не проделывать дополнительную работу по поиску прилетевших новых категорий - структура категорий у всех разная.
  10. да есть такие производители и категории товаров, где товары только артикулом и отличаются, а так и описание и содержимое одинаковое, но часто обновление на сайте-доноре не происходит долгое время и товар при парсинге игнорируется. например, печатная продукция - дополнительный тираж идет с новым штрихкодом, также напитки часто тоже отличаются штрихкодом и т.п.. С напитками еще кое-как можно разобраться, а вот с печатными изданиями, где позиция может годом издания отличаться - не всё так просто получается. для небольшого количества товаров может и подойдет, а вот для больших прайсов - никак, т.к.: 1. старый и новый прайс отличаются строками и количеством товаров в прайсе, отсюда следует, что сопоставить их нельзя. 2. сделать выборку по новым товарам - то еще занятие, к тому же есть определенные сложности
  11. Всё круто!!! И всё же, если добавить сюда обработку прайсов из экселя и т.п. таблиц - тогда модуль по полной раскроется. тут как раз этого и не хватает. спарсить, например сайт боша для создания карточки товара можно, но всё же чаще цены берутся именно из прайсов поставщиков. при этом приходится делать двойную работу - сначала создать карточку товара парсингом сайта-донора, потом отдельно парсить прайсы поставщиков. а зачастую приходится парсить не один сайт-донор, не все товары есть. Столкнулся еще с одной задачкой. Есть в базе товар с артикулом 1234567890. Есть такой же товар на сайте-доноре. пока всё ОК. Берем артикул с донора и обновляем товар - всё совпадает. Далее. Этот товар обновляется производителем и получает артикул 0987654321. Товар идентичен, описание такое же, но с донора описание не взять, т.к. артикулы разные. На входе имеем из прайса поставщика артикул товара 0987654321 и ссылку на страницу для парсинга. Вопрос - как заставить модуль спарсить в этой связке? Если товаров 10 штук, то не сложно, а вот когда намного больше - всё не отследишь. В АОП есть возможность взять ссылку для парсинга из ячейки таблицы и там всё работает (правда нет такого набора инструментов, как тут, и в АОП функционал сильно ограничен и спарсить не все данные получается). Тут такой возможности нет. Опять же приходим к тому, что подгрузка из прайса как бы нужна, или же добавить функционал обработки связки артикул-ссылка, т.е. берем две колонки из прайса (пока вручную копируем) и вставляем в Simplepars, как и ссылки. т.е модуль сразу видит и артикул и по этому артикулу по ссылке забирает данные с донора.
  12. вещь нужная и снимает головную боль с кривыми таблицами! к ней надо еще добавить "+" около "-", чтобы можно было вставлять колонки в середине, а не только добавлять в конец, а то приходится переносить все данные из ячейки в ячейку - и тогда вообще будет супер
  13. как вариант. еще с чем сталкивался. страница на доноре открывается, но вот не с товаром, а какая-нибудь другая, например, когда ссылка на товар получается из ссылки на поиск товара https://site.site/search/?q=97823983. хотя во время бана может также открыться не 404, а просто спец страница. тут бы вставить проверку на существование какой-нибудь из границ. если граница пустая, то ссылка спарсилась с ошибкой.
×

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.