Jump to content
Search In
  • More options...
Find results that contain...
Find results in...

Axelenz

Users
  
  • Posts

    744
  • Joined

  • Last visited

Everything posted by Axelenz

  1. Я по текстам прохожусь всегда вот такой связкой: {reg[#\t#]}| {reg[#\s{2,}#]}| {reg[#^\s+|\s+$#]}| что означает: вместо табуляции - пробел вместо нескольких пробелов - один удалить пробел в начале и конце текста...
  2. Я имел ввиду нечто иное... Поразмыслив, чего же мне лично не хватает в модуле, я пришёл к выводу, что не хватает информативности! Аналогия: мы смотрим фильм с запутанным сюжетом и иногда лишь по заключительным титрам понимаем, что фильм то уже закончился ) Вернёмся к парсеру... Про то, что парсинг закончился мы понимаем по тексту "Ссылок в очереди: 0". Лично мне не хватает краткого отчёта по самому парсингу, как отработал модуль моё задание! Никто из обычных (да и не обычных тоже) пользователей не будет просто так лезть в Логи и читать подробный отчёт о парсинге 10,000 товаров... это избыточная информация. А вот краткий отчёт в конце работы парсера, мол ты мне дал 10.000 ссылок, я спарсил 9.000, а остальное "ниасилил многа букаф"... Вот при таких словах уже есть смысл лезть в логи и смотреть, а почему не выполнено задание... Точно так же я писал про информативность о наличии в тексте Запрещённого контента от Гугла...
  3. У каждого клиента свои хотелки... Один Заказчик, например, дал перечень слов и сказал, чтобы товары с этими словами не присутствовали в прайсе. Слова эти дали ему представители поисковика. Т.е. тут уже необходимо поработать с подобным текстом, насколько он важен для клиента... не просто сделать замену слов, а проанализировать и решить, что дальше делать: удалить, заменить на синонимы при необходимости и т.д. Вот, к примеру, товар, который не проходит у клиента и он его удаляет: Жидкость для электронных сигарет поэтому я фильтрую тексты на присутствие слов: сигарета, сигареты... а также пистолет, нож, оружие, алкоголь...
  4. Из хотелок... на далёкие перспективы ) Очень удобно было бы, чтобы можно было создавать текстовый файл, а в нём размещать слова с "запрещённого контента" https://support.google.com/adspolicy/answer/6008942?hl=ru#con а дальше проверять, например, наличие данных слов в Наименовании товара или в Описании товара и делать какие-то действия, если такие присутствуют в тексте...
  5. Проверил, единственно, что не нравится, что в таблицу подхватывается и заносится само "или". Т.е. получаю в итоговом столбце перед данными это или "{|}", которое потом необходимо будет удалять в Excel ) Парсинг на локалке, Open Server 5.2.2.
  6. Как вариант решения - добавить ещё одну колонку, где в чекбоксе можно будет насильно указать, какой тип данных должен быть в этом поле. Если там находятся цифры - то и так понятно, что с ними можно делать. А если там находятся текстовые данные, а поставить галочку "Тип данных - числа", то чтобы модуль делал, как вариант, подсчёт количества символов в этом поле и операции делал уже с этими данными. Кто знает, может кому-то и понадобится делать подобный подсчёт, как вариант...
  7. Хоть и несколько не обычно... нужно будет забыть правила арифметики начальных классов (и это необходимо будет прописать большими рыжими буквами, чтобы потом не было вопросов, а как оно так считает), но не смертельно... зато можно получить в итоге желаемый результат ) А то не так давно пришлось парсить сайт и одним из условий было - замена артикулов (использовался id товара)... Пришлось придумать способ, чтобы на лету при парсинге сразу же менялся автоматом и id товара так, чтобы при дальнейших парсингах можно спокойно обновить товар. Решил задействовать для этого поле Наценка и в итоге на выходе получал уже готовые инвертированные не узнаваемые id ))) P.S. Почему не использовалась возможность Захешировать ? Мне кажется, что это уже слишком избыточно и несколько неудобно для визуального восприятия ( А так, зная формулу конвертирования, я в уме могу получить реальный код товара на сайте доноре...
  8. Благодарю. Это хорошо, что Вы не удаляете, а идёте только по пути расшинения. Если что-то не понадобилось сегодня, это ещё не значит, что оно не может пригодиться завтра... Интересные доработки... жаль, сейчас пока всем всё спарсил ) А как можно реализовать следующую схему. Например, я спарсил сайт-донор. Получил прайс с артикулом, наименованием товара, количеством, ценой, фото, описанием и атрибутами. А через неделю мне необходимо сделать обновление по наличию товара и цене. Сейчас для этого я использую ту же форму, что и для парсинга всей информации с донора, только добавляю, например, нули "000" в границы парсинга, чтобы не парсилась лишняя информация. Потом при получении прайса удаляю этот мусор. Но всё равно это несколько неудобно, поэтому удобнее создавать по несколько форм. Можно ли добавить ещё один столбец на вкладке "CSV/Парсинг" после "Выбор параметров парсинга", где можно было бы в чекбоксе ставить подтверждение парсить эту границу или пока пропускать (т.е. в прайсе столбец сохраняется, но данные по нему В ЭТОТ РАЗ НЕ ПАРСИТЬ). На выходе мы получаем всё тот же прайс, по столбцам аналогичный прайсу, как при полном парсинге сайта, но теперь данные заполнены только в нужных столбцах, например: артикул, наличие и цена. Тогда получается, что можно избавиться от дублей форм для парсинга. А то сейчас одна форма для полного парсинга, вторая только для парсинга наличия и цены...
  9. Можно создать отдельную вкладку, между вкладками Сбора ссылок и Настроек парсинга, где обрабатывались бы ссылки до процесса парсинга, например сортировались бы и т.п. А если туда подбросить ещё проверку на заполнение указанных границ, например: Показать все ссылки без данных "Цена" или без "Фото". И указывается при этом количество таких ссылок. Тогда можно найти. например, ссылки, границы которых не захватили цену, фото и пр. данные... Фактически то же самое, что мы делаем вручную в Excel, но уже после того, как всё спарсили... а если это можно будет проверить до того, т.е. получить предварительные итоговые данные по парсингу, то это будет интересно...
  10. Интересно было бы иметь возможность (насколько это вообще возможно в реализации) некоторой сортировки ссылок. - сортировка по времени добавления товара (фактически по id) - сортировка по категориям - сортировка по алфавиту
  11. Как вариант. На вкладке CSV/Парсинг внизу под " Использовать проверку границ? " добавить ещё "Скачать фото с описания, если есть." и указать папку, куда поместить. На основании указанных данных прописывается путь к фото в описании... Но каждый раз при новом парсинге на этой вкладке затирается указанная папка, чтобы не дублировать фото. А для этого пишется предупреждение, что папку для фото необходимо указывать новую, а не существующую с данными. Или, как вариант, создаются каждый раз новые description_200709_1524 т.е. с префиксом даты и времени для уникальности... А на вкладке "Парсинг в ИМ" можно сделать поле выбора, откуда брать фото для описания, парсить или с указанной папки... Теперь о плохом... Допустим, у донора специфическая CMS и у всех товаров в описаниях фото имеют одинаковые названия типа img1, img2... img9. Тогда вариант с папками в description 0-9 не проходит. Тогда варианты или создавать в дескрипшин подпапки по артикулам товаров или использовать существующие цепочки подпапок донора...Второй вариант даже предпочтительнее.
  12. Из хотелок... Не хватает возможности получения фото из описания у донора при парсинге не в ИМ, а при работе на вкладке CSV/Парсинг. Ведь не все парсят товары только для своего магазина...
  13. Из хотелок... Можно было бы сделать для удобства на вкладке CSV/Парсинг возможность вставлять в поле "Значение" переменную текущего времени. Например: {time} или {Y-m-d H:i:s} чтобы можно было использовать это для полей типа заметок...
  14. На некоторых сайтах в описании используются символы греческого алфавита. Столкнулся с такой проблемой, что до греческой буквы текст парсится, а если границу указать после неё, то описание не парсится... провозился с этим... Единственно, что помогло - указание замены по типу: α|α β|β ... или лучше использовать Юникод α|U+03B1 ? А можно и так заменить: альфа- бета- ... (например, при парсинге витаминов и пр.). Но может есть какие варианты получше ?
×
×
  • Create New...

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.