Jump to content

Recommended Posts

Цитата

Я думаю это частично закроет эту подробность. 
Более глобальные переделыванию готов буду делать позже когда будет протестирована эта версия модуля. 

 

Большое спасибо, конечно этого будет вполне достаточно )

Share this post


Link to post
Share on other sites

Ещё, как вариант, можно дополнить модуль ограничением на количество ссылок. Например, я смотрю, что у меня на сайте есть реально 100 товаров, ссылки на которые хочу получить, т.е. количество я знаю и выставляю его в поле и жду не окончания перебора всех возможных ссылок. а только когда будет "собрано" уже известное мне количество ссылок на товары.Можно конечно просто сидеть и смотреть на монитор. когда они насобираются, но вопрос в полной автоматизации, без контроля со стороны оператора.

 

И ещё исправьте, пожалуйста, на кнопке "Повторить фитрацию" на "Повторить фильтрацию"

Edited by Axelenz
Исправления

Share this post


Link to post
Share on other sites
3 минуты назад, Axelenz сказал:

Ещё, как вариант, можно дополнить модуль ограничением на количество ссылок. Например, я смотрю, что у меня на сайте есть реально 100 товаров, ссылки на которые хочу получить, т.е. количество я знаю и выставляю его в поле и жду не окончания перебора всех возможных ссылок. а только когда будет "собрано" уже известное мне количество ссылок на товары.Можно конечно просто сидеть и смотреть на монитор. когда они насобираются, но вопрос в полной автоматизации, без контроля со стороны оператора.

Если вы знаете точное количество ссылок, значит оно строго задано определенной частью url 
А значит вы можете точно задать фильтр Шаблон ссылок.
Во всех остальных случаях когда вы точно знаете что товаров 10 но ссылок похожих на товар 1000 то если вы зададите ограничение вы получите 10 совпадений ссылок но ни в коем случаи не те 10 ссылок что вам нужны. 


 

Edited by Rassol2

Share this post


Link to post
Share on other sites

Сейчас я считаю в подкатегории сколько товаров реально есть в ней и потом жду, когда в "собрано" появляется нужное мне количество. К сожалению, ограничивая максимально фильтрами сбор ссылок я недополучаю иногда по 1-2 ссылке, как я заметил... поэтому использую вот такой метод с визуальной проверкой. Получается, когда прерываю сбор ссылок, когда уже насобирал нужные мне, остаётся ещё с полтысячи ссылок, которые мне уже дальше не нужны... т.е. я так экономлю время.

 

Как на рисунке...у меня уже собрано количество необходимых ссылок на товар - 69, а в очереди ещё стоит полтысячи... но они мне не нужны...

00001.jpeg

Edited by Axelenz

Share this post


Link to post
Share on other sites
33 минуты назад, Axelenz сказал:

Сейчас я считаю в подкатегории сколько товаров реально есть в ней и потом жду, когда в "собрано" появляется нужное мне количество. К сожалению, ограничивая максимально фильтрами сбор ссылок я недополучаю иногда по 1-2 ссылке, как я заметил... поэтому использую вот такой метод с визуальной проверкой. Получается, когда прерываю сбор ссылок, когда уже насобирал нужные мне, остаётся ещё с полтысячи ссылок, которые мне уже дальше не нужны... т.е. я так экономлю время.

Это пока вы не набили руку. Я уверен что это можно сделать настройками фильтров. 

Либо как я уже писал будет ведено еше одно понятие повторяющие границы парсинга. 
С их появлением вы сможете поменять подход. А именно.

Собираете ссылки на все категории и их страницы. 
Затем на вкладке настройки Параметры парсинга (нужно переименовать в настройки парсинга :) ) вы настраиваете повторяющую границу парсинга на получение ссылки на товар. 

И жмете старт. 
В итоге получите все ссылки на страницы товара в файле CSV


Как это наглядно будет выглядеть.
Вы собрали ссылки на все категории и их страницы. Это как правильно не сложно и их не так много как товаров.
Затем настроили повторяющие границы парсинга на ссылку товара внутри страницы категории.
 

 

Спойлер

1676763795__2018-12-13_20-25-41.thumb.png.e936011ce1ac44826aae3976ba19024b.png

 


примерно так 

 

Спойлер

1887823576__2018-12-13_20-25-29.thumb.png.d5cdda9f565692775a8a5558f0a7e815.png



И испарили в csv в первую колонку ссылки на товар. Вот так можно получать все ссылки на товар без фильтров. 

 


Но сейчас это можно и нужно делать через параметры фильтра

это просто два подхода к решению одной и той же задачи. Кому как удобно.
Но сейчас я реализовал пока только вариант с фильтрами. 
 

Edited by Rassol2

Share this post


Link to post
Share on other sites
34 минуты назад, Axelenz сказал:

Как на рисунке...у меня уже собрано количество необходимых ссылок на товар - 69, а в очереди ещё стоит полтысячи... но они мне не нужны...

 

Спойлер

00001.jpeg

 


Что бы такое не повторялось используйте эти окна

Спойлер

83648836c7.thumb.png.26e1b6ba9779db5de97ed0c80d141f00.png


Они как раз и созданы что бы сузить выборку. И не делать как вы делаете.

Share this post


Link to post
Share on other sites

Я в очереди сканирования ничего не ставлю потому как нашёл разницу в количестве спарсенных товаров.Шаблоны использую уже дальше в выдаче ссылок и получаю то, что хотел.

Share this post


Link to post
Share on other sites
Только что, Axelenz сказал:

Я в очереди сканирования ничего не ставлю потому как нашёл разницу в количестве спарсенных товаров.Шаблоны использую уже дальше в выдаче ссылок и получаю то, что хотел.

В это и проблема.
Шаблон очереди как раз и отвевает за это количество 
c645ae367d.thumb.png.fce02980ba2b65251e4cdb52643116ca.png

если вы укажите тогда ненужно будет ждать и смотреть. Модуль будет ходить только там где нужно. И брать только то что нужно. 
и у вас исчезнет потребовать в функции остановки от определенного количества найденных. 

пробуйте, я думаю вам понравится. :) 

  • +1 1

Share this post


Link to post
Share on other sites

Подготовил и выгрузил новое обновления. 
Ну что по очереди пойдем.

Из заметных изменений
1. Благодаря пользователю @kikaridza123  было добавлена нумерация строк в обозревателя кода. За что ему спасибо.
 

Спойлер

e43d4bcb18.thumb.png.0361109a5678486dacf38d2dd476db78.png

 

Были добавлены функции для редактирования ссылок очереди, и ссылок выдачи.
теперь можно их заносить вручную если у вас на руках есть перечень ссылок. 
Важно каждая ссылка должна быть написана с новой строки.
 

Спойлер

02fb7d02b8.thumb.png.bf89396b82e73b7a385718154eb4c4a4.png

Это для вас @Axelenz сделано можете теперь добавлять ссылки сгенерированные в экселе. 

3. При нажатии стоп на странице сбора ссылок теперь не просто останавливается парсинг но и делается перезагрузка страницы что бы вы могли сразу видеть актуальную информацию.


4. На странице настройки CSV В выпадающем списке выбора ссылок для пред просмотра было добавлена нумерация ссылок.
Так же ограничено отображение длинных ссылок что бы не ломать верстку. Ограничение в 190 символов. 
Так же для пред просмотра выводится максимум 5000 ссылок. При тестировании оказало долговато грузится страница когда попадается 10 000 ссылок для пред просмотра. Думаю это незачем. 

Так теперь то что не заметно. 
1. Модуль теперь работает через cURL 
2. Создал зачатки логирования. Теперь в директории /admin/uploads/ создается log файл в который идут все выхлопы от запросов модуля к другим сайтам. 
Имя файла формируется по принципу logs_[id формы]_[2018-12-14].log
Логи сами не удаляются.
Вообще пока что у меня нету опыта что в логах нужно что нет как писать и хранить, так что реши сделать пока что так. 

Сейчас в логах пишутся только ответы сервера на запрос. Дальше по мере необходимости буду думать что добавить. 
Как это выглядит:

Спойлер


Цитата

Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/policyandsafety/uk/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/testtube
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//support.google.com/youtube/answer/1738660?hl=en
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com/javascript:void(0)
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//support.google.com/youtube/?hl=uk
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//support.google.com/youtube/answer/1738660?hl=uk
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/t/terms
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/dev/uk/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/advertise/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/creators/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/t/contact_us
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/copyright/uk/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/press/uk/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/about/uk/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/dev/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/dev/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/brand-resources/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/brand-resources/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/copyright/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://support.google.com/youtube/answer/2797370
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com/brand-resources/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/policies/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/lineups/en/index.html
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/press/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com/yt/dev/en/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/creators/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/advertise/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/musicpremium/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/policies/#community-guidelines
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_monochrome_light_icon.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_monochrome_dark_icon.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_full_color_icon.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_monochrome_logos.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_full_color_dark_logo.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_full_color_light_logo.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/user/advertise
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/copyright/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/


 

Система логов поможет понять почему сканирование ссылок идет, а в очередь или в выдачу новые не попадают. 
может так произойти что вас забанило. 
Пока логи на большую часть ответов могут отдавать не определен код ответа и номер ответа. Пишите такие коды здесь на форуме и я их добавлю. 
код ответа написан в квадратных скобках [404]

Как то так. 

Единственное что хочу напомнить:
Господа не забываем что модуль это веб приложение и он подчиняется настройкам веб сервера. 
А значит нельзя взять файл размером в 20мб в котором одни ссылки. И скопировать их в очередь ссылок или выдачи и сохранить. 
не забывайте что есть ограничение на размер POST запроса. 

Вроде все. 
Обновитесь, пользуйтесь. 

Edited by Rassol2
  • +1 1

Share this post


Link to post
Share on other sites
2 часа назад, Rassol2 сказал:

пользуйтесь. 

Запустил вчера парсинг,
сегодня пришел утром к 10 часам было спарсено 521 ссылка,  ( вообщем модуль прекратил свою работу вчера вечером еще) 
подозреваю что из-за окончания сессии ( так как после перезагрузки страницы - нужно было снова авторизоваться)
--
Сейчас запустил далее парсинг
http://prntscr.com/lutcf8
Будем ждать. 

Share this post


Link to post
Share on other sites
1 минуту назад, kikaridza123 сказал:

Запустил вчера парсинг,
сегодня пришел утром к 10 часам было спарсено 521 ссылка,  ( вообщем модуль прекратил свою работу вчера вечером еще) 
подозреваю что из-за окончания сессии ( так как после перезагрузки страницы - нужно было снова авторизоваться)
--
Сейчас запустил далее парсинг
http://prntscr.com/lutcf8
Будем ждать. 

Окончание сессии. Интересно. 
Вообще не должно быть потому что каждая ссылка это отправление post запроса с указанием токена.
Это должно продлевать жизнь сессии. 
Отпишитесь по результату. У вас прям в лоб стресс тест пошел ))

Share this post


Link to post
Share on other sites

Добрый день!

Подскажите, пожалуйста, скачала и установила модуль. Все вроде ок. Так же установлен модуль АОП. 

Какой должен быть алгоритм действий? Есть файл поставщика, где есть артикул, название, цена, наличие, но нет ни описаний, ни характеристик, ни фото.

Есть сайт поставщика, откуда можно спарсить фото товара и немного характеристик. Артикул и название товара совпадают в прайсе и на сайте поставщика. 

Для модуля АОП мне нужно собрать ссылки на страницы товара и добавить их в прайс поставщика чтобы там настроить парсинг. 

Как это с помощью модуля сделать пошагово? 

1. Собрать ссылки во вкладке сбор ссылок.

2 А во вкладке параметры парсинга что можно сделать?

 

Пока хочется алгоритм понять от сбора ссылок, до момента как добавить эти ссылки в файл excel для АОП. 

 

Share this post


Link to post
Share on other sites

На данном этапе я бы на вашем месте собрал ссылки на сайт поставшика. И просто записал в файл Ексель. А весь парсингу настроил через аоп . 

Либо всё собрать и спросить этим модулем а фото и характеристики через аоп .

 

По поводу вкладки параметры парсингу. Там нужно указать начало и конец парсинга для каждого элемента. Инструкция пока не готова. К сожелению. На примере какой то ссылки могу показать 

Edited by Rassol2

Share this post


Link to post
Share on other sites
27 минут назад, Rassol2 сказал:

На данном этапе я бы на вашем месте собрал ссылки на сайт поставшика. И просто записал в файл Ексель. А весь парсингу настроил через аоп . 

Либо всё собрать и спросить этим модулем а фото и характеристики через аоп .

 

По поводу вкладки параметры парсингу. Там нужно указать начало и конец парсинга для каждого элемента. Инструкция пока не готова. К сожелению. На примере какой то ссылки могу показать 

А как потом совместить 2 файла экселя? Файл поставщика и файл с собранными модулем ссылками на товар? 

 

В параметры парсинга зачем люди лезут? Что обычно парсят там?

 

Я, наверное самую элементарщину спрашиваю, понять основу нужно, чтоб дальше двигаться...

Share this post


Link to post
Share on other sites
Только что, Eugeniyaya сказал:

А как потом совместить 2 файла экселя? Файл поставщика и файл с собранными модулем ссылками на товар? 

 

В параметры парсинга зачем люди лезут? Что обычно парсят там?

 

Я, наверное самую элементарщину спрашиваю, понять основу нужно, чтоб дальше двигаться...

первая вкладка поможет вам собрать ссылки.
Но вам нужно получить не только ссылки но и цену название. 

Вот что бы выделить из страницы цену и название вам нужно вкладка настройки парсинга. 
Допустим вам нужно спарсить все названия товаров. 
вы собрали все ссылки на товары. Затем заходите в вкладку парамтеры парсинга и делаете так.
http://joxi.ru/D2PYagbuqpvP5A

После чего идете в колонку настройки CSV и делаете так.
http://joxi.ru/Dr8yGa0fo4d8ym

и снизу видите пример csv файла что вы получите. 
затем жмете парсинг и у вас на выходе такой прайс.
1402551194__2018-12-14_14-13-38.thumb.png.d7700e1d62652abbcc4aeac07bfa4edc.png

По аналогии можно сделать прайс с любыми данными с сайта донора.

для этого и нужно идти в вкладку параметры парсинга

Share this post


Link to post
Share on other sites
7 минут назад, Rassol2 сказал:

первая вкладка поможет вам собрать ссылки.
Но вам нужно получить не только ссылки но и цену название. 

Вот что бы выделить из страницы цену и название вам нужно вкладка настройки парсинга. 
Допустим вам нужно спарсить все названия товаров. 
вы собрали все ссылки на товары. Затем заходите в вкладку парамтеры парсинга и делаете так.
http://joxi.ru/D2PYagbuqpvP5A

После чего идете в колонку настройки CSV и делаете так.
http://joxi.ru/Dr8yGa0fo4d8ym

и снизу видите пример csv файла что вы получите. 
затем жмете парсинг и у вас на выходе такой прайс.
1402551194__2018-12-14_14-13-38.thumb.png.d7700e1d62652abbcc4aeac07bfa4edc.png

По аналогии можно сделать прайс с любыми данными с сайта донора.

для этого и нужно идти в вкладку параметры парсинга

Спасибо огромное, уже понятнее, картина мира проясняется) как с модулем работать.

Только на выходе я получаю два файла для заливки товара на сайт. Собраный модулем + прайс поставщика. Их же нужно объединить чтоб скормить АОП? Ну т.е есть в прайсе 5000 товаров, артикулы одинаковые с новым файлом, но порядок строчек в файлах разный. Просто так не скопировать столбики. Неужели вручную искать какому товару ссылка соответствует? Или эксель как-то может по артикулу найти и расставить все по местам? 

Или в АОП поочереди 2 разных файла заливать, а он там по артикулам сам как нибудь разберется?

Share this post


Link to post
Share on other sites
18 минут назад, Eugeniyaya сказал:

Или в АОП поочереди 2 разных файла заливать, а он там по артикулам сам как нибудь разберется?

и вот вы сами нашли правильное решение.
Если у вас есть файл где есть все данные кроме (Например) фото и описания.
Вы можете спарсить файл моим модулем в котором указать артикул, ссылку на фото, описание, и цены. 
А затем полученный прайс скормить АОП с действием обновлять. 
Вот и ваше решение. 

Share this post


Link to post
Share on other sites
20 минут назад, Rassol2 сказал:

и вот вы сами нашли правильное решение.
Если у вас есть файл где есть все данные кроме (Например) фото и описания.
Вы можете спарсить файл моим модулем в котором указать артикул, ссылку на фото, описание, и цены. 
А затем полученный прайс скормить АОП с действием обновлять. 
Вот и ваше решение. 

Уффф, спасибо!!!! Теперь по местам все встало))). Но со сбором ссылок уже вижу вопросы появятся. Спасибо огромное за поддержку. Жаль что плюсы в репутации закрыли(((  

Share this post


Link to post
Share on other sites
3 часа назад, Eugeniyaya сказал:

Уффф, спасибо!!!! Теперь по местам все встало))). Но со сбором ссылок уже вижу вопросы появятся. Спасибо огромное за поддержку. Жаль что плюсы в репутации закрыли(((  

задавайте будем помогать. 

Share this post


Link to post
Share on other sites

Сегодня внедрял повторяющиеся границы парсинга. 
И почти закончил, а это значит что скоро будет огромный скачек в развитии модуля. 
Вот к примеру чего можно добиться используя повторяющие гранизы парсинга. 
http://joxi.ru/a2XZ1ldfw1daJr

Все колонки обведенные получены при помоши повторяющих границ. 
к примеру 
Г фото, допустим у вас есть главное фото, но у него нету уникального текста начала и конца парсинга. При помощи повторяющихся границ это стало возможно.
Так же собрать все фото в одну ячейку с разделителем тоже доступно. Как в ячейке Доп фото.
Так же теперь собираются категории товара. Как в ячейке Категории.
И те кто владеют екселем уже поняли что при помощи функции разделить по признаку ; можно получить полностью готовы прайс для загрузки в АОП

Сбор атрибутов это очень сложная задача. Я не могу сказать что уже это решено, но простейшие атрибуты можно собирать без проблем.  
После появления функции поиск замена, вопрос с парсингом атрибутов будет полностью закрыт. 

Так похвастался а теперь дальше писать. 
Как только закончу тестирования выкачу новую версию. 

Еше пару скриншотов по порядку формирования данных при помощи повторяющихся границ парсинга. 

Спойлер


Создаем обычную границу парсинга.

e43d4bcb18.thumb.png.36cd1c12025fbb6b4bfbcda0dd43f8a7.png

 

 Создаем повторяющуюся границу парсинга внутри обычной. :cool:

742321b0b8.thumb.png.ec52b5394fc53ec2a86b220c448a7e0e.png

 

Выводим данные с повторяющейся границы парсинга.

b497e009ae.thumb.png.7184c16c89b1d94a8d8867dd88123ac3.png

 

 

Ждите обновления. :rolleyes:

Share this post


Link to post
Share on other sites

Жду с нетерпением, хочеться глянуть и попробовать, а то у меня на 1.0.3 таблица не создаётся ни на локалке, ни на сервере, ни на одном из рабочих сайтов (((

 

Выдаёт то ошибку

 

Notice: Undefined index: csv_name in I:\OSPanel\domains\localhost\admin\model\catalog\simplepars.php on line 415

 

или

 

Notice: Undefined index: csv_name in /home/admin/web/sub.dom.com.ua/public_html/admin/model/catalog/simplepars.php on line 415Warning: Cannot modify header information - headers already sent by (output started at /home/admin/web/sub.dom.com.ua/public_html/admin/index.php:80) in /home/admin/web/sub.dom.com.ua/public_html/system/library/response.php on line 12

 

то ещё какую фигню, но парсить не хочет...

  • +1 1

Share this post


Link to post
Share on other sites
5 часов назад, Axelenz сказал:

Жду с нетерпением, хочеться глянуть и попробовать, а то у меня на 1.0.3 таблица не создаётся ни на локалке, ни на сервере, ни на одном из рабочих сайтов (((

 

Выдаёт то ошибку

 

Notice: Undefined index: csv_name in I:\OSPanel\domains\localhost\admin\model\catalog\simplepars.php on line 415

 

или

 

Notice: Undefined index: csv_name in /home/admin/web/sub.dom.com.ua/public_html/admin/model/catalog/simplepars.php on line 415Warning: Cannot modify header information - headers already sent by (output started at /home/admin/web/sub.dom.com.ua/public_html/admin/index.php:80) in /home/admin/web/sub.dom.com.ua/public_html/system/library/response.php on line 12

 

то ещё какую фигню, но парсить не хочет...

Скиньте в личку фтп доступ и я посмотрю в чем у вас ошибка, и если что добавлю фик в релиз. 
Пока что я такую не встречал у себя. 

Share this post


Link to post
Share on other sites

Выкатил обновление 1.0.в котором только устранение 2 ошибок но критичных.
Спасибо пользователю @Axelenz  что предоставил доступ для отлови.

Ошибка касается только тех пользователей то переходил от версии к версии, а не устанавливал с нуля. 
а именно ошибка, при заходе в вкладку Настройка CSV / Запуск парсинга данных

 

Notice: Undefined index: csv_name in ..../public_html/admin/model/catalog/simplepars.php on line 415


Для устранения ошибки вам необходимо, залить файлы модуля по верх с заменой, и ОБЯЗАТЕЛЬНО выполнить скрипт /inst.php

Edited by Rassol2

Share this post


Link to post
Share on other sites

Выложил новую версию 1.1 с добавлением нового функционала. 

Что нового в этой версии.

Немного причесал страницу сбора ссылок, и исправил недочеты в коде. 
 

Спойлер

1.thumb.png.b0dda23e5afba4bc78d2b812cbda8254.png


На странице Настройки парсинга появилась возможность использовать повторяющие границы парсинга. 
Суть функции на пальцах. 

Первый сценарий применения
Допустим вам нужно спарсить значение код товара из этого куска кода. 
 

<div class="line-info">
<span>Код товара</span>
<span>1458391</span>
</div>
<div class="line-info">
<span>Артикул</span>
<span itemprop="sku">00001089</span>
</div>

Здесь у вас нету за что зацепится что бы получить чистый код товара. Но при помощи функции повторяющиеся границы во можете сделать так. 
Создать границу парсинга с названием Границы. и указать ей параметры 
Старт - <span>Код товара</span>
Стоп - </div>

После этого модуль отрежет от всей страницы только нужный вам кусок кода. А именно
 

<span>1458391</span>


Затем в поле Область для повторяющей границы парсинга выбираем Границы

 

Старт - <span>
Стоп - </span>

поскольку теперь у нас только одно такое совпадение мы получим значение 1458391

Второй сценарий применения
Допусти нам нужно спарсить категории с хлебных крошек. 
 

<section class="main">
<section class="content-right card" itemscope itemtype="//schema.org/Product">
<div class="breadcrumbs">
<span>Крепеж и метизы</span> / <span>Саморезы, шурупы</span> / <a href="/catalog/F04020_samorezy_dlya_krepleniya_listovogo_metalla">Саморезы для листового металла и направляющих</a> / <a class="bold" href="/catalog/F0402020_samorezy_po_metallu_sverlo">Саморезы по металлу со сверлом</a>
</div>
<h1 itemprop="name">Саморез по металлу 4,2х25 сверлоконечный (5000шт)</h1>
<div class="card-left">

Представим что нам нужно только 2 первых категории. 

Создаем границу парсинг с именем Границы категорий и значением
Старт - <div class="breadcrumbs">
Стоп - </div>

Затем создаем повторяющиеся границу парсинга с именем Категории и в поле Область для повторяющей границы парсинга выбираем Границы категорий а так же указываем разделитель к пример символ |
и указываем старт и стоп.

 

Старт - <span>
Стоп - </span>
 

После обработки в ячейке эксель документа мы получим 

Крепеж и метизы|Саморезы, шурупы
Кому нужно такой прайс скормить АОП можете через функцию Текст по столбцам в экселе разнести каждую категорию в отдельную ячейку. 

Третий сценарий 
А вот третий сценарий будет полностью готов с версии 1.2,
В крации это точный сбор ссылок без лишних проходов по сайту донору. 

=============================================================

Настройка Повторяющихся границ парсинга

Создаем обычную границу парсинга
 

Спойлер

3.thumb.png.42edb05637e02e518a6272578ee831bd.png



Затем создаем повторяющуюся границу парсинга внутри обычной. И указываем разделитель.

 

Спойлер

9.thumb.png.ff3e295d0a457f0e565cadb1878919c2.png



Хочу обратить ваше внимание что Повторяющаяся граница парсинга может быть как внутри обычно границы, так и внутри всей страницы сайта. 

При оформлении CSV файла повторяющаяся граница парсинга помечена символом
 

Спойлер

6.thumb.png.05c59c7a3c866cb3ac553ad1ce197677.png


На выходе вы можете получить вот такой файл.
5.thumb.png.9546928305da3625a779574a0d4015db.png

Обратите внимание что уже можно парсить атрибуты , с простой разметкой. Так же обратите внимание как получилась структура категорий.


Другие изменения по мелочи.

 

В логах теперь выводится время.
1846429589__2018-12-17_11-40-52.thumb.png.a72b0eb5faf1668c779dcfca45ebe24a.png

На странице настройки csv появилась возможность выбора разделителя CSV файла, а так же символа экранирования.
7.thumb.png.e1c3d6beec871a76b677b5ce6c48f285.png

Для тех ребят кто использует не Эксель а свободные аналоги, опен офис, или wps офис. Короче главное дал выбор, а там можете разделителем хоть свое имя указать :)
 

Рестарт парсинга в файл.
Если вы сделал настройки начали парсить увидели что в файле что то не так, вы можете остановить поправить и запустить заново. 
Что бы процесс парсинга в файл начался с начала нужно нажать Перезагрузить ссылки8.thumb.png.aadd63ad4976c841ac21dbbf556d851d.png

И все ссылки из списка обработанные попадут в список ссылки в очереди.

Вроде все ничего не забыл.
Вроде мало. Но это повторяющие границы очень сильно раздвигают рамки возможностей. 
С нетерпением жду ваши отзывы. 

@Axelenz @kikaridza123 @SiteMix

Edited by Rassol2
  • +1 2

Share this post


Link to post
Share on other sites

Ух ты! Столько изменений, что впору перечитывать ветку чтобы разобраться что к чему...

 

Наверное не с того начинаю, но и на мелочи нужно обращать внимание...

 

1. Вкладка Сбор ссылок.
1.1. Блок в котором расположен заголовок страницы в panel-heading имеет класс "col-md-1" из-за чего заголовок переносится.

Спойлер

image.png.b14cfa07afb5d4e75e0091115b2b00c0.png

Очевидно, пропущена двойка. На других страницах класс правильный "col-md-12".

1.2. При заполнении данных и переходе на другую вкладку, заполненные данные не сохраняются. Если это возможно, то было бы хорошо не терять данные пока этот проект не закрыт. Как, например, в АОП. Там можно перемещаться по вкладкам и внесённые изменения не теряются.

1.3. Нет кнопки выхода из проекта. Только хлебные крошки. Предлагаю два варианта:
- добавить кнопку Применить, на которую перенести действие имеющейся кнопки, а по нажатию на имеющуюся кнопку Сохранить выполнять сохранение и выход;
- добавить кнопку выхода.

2. Вкладка Настройки парсинга. Вижу надпись: "Warning! Не выбрана ССЫЛКА для просмотра кода --->", а справа пустое поле, но оно схлопнуто наполовину.

Спойлер

image.thumb.png.1c2a57fa87e6b02b873c8a6f8e9d23a0.png

Думаю, даже пустое поле, должно быть хотя бы в одну строку. А в русской версии вместо Warning! лучше написать Внимание! И шрифт хорошо бы уменьшить.

Да и цвета я бы переделал на красный с чёрным. Или Чёрный шрифт на розовом фоне как в обычных алертах .
Как оказалось, надпись пока вбита прямо в контроллер, но, полагаю, это временно и она будет перенесена в локализацию.


Запустил сканирование. Почему-то сканирование не запустилось, а в логе такая строка:
2018-12-17 15:38:18| Парсинг : НЕИЗВЕТНЫЙ ОТВЕТ Ответ сервера не распознан. Код ответа [0] Ссылка | https://mnogotools.ru/
В прошлый раз сканирование этого же сайта запускалось. Хотя, тут возможен бан... В прошлый раз, как мне показалось, в какой-то момент сбор ссылок прекратился.

Запустил сканирование другого сайта. Процесс пошёл, но очень медленно. За несколько минут просканировано около 70 ссылок, если верить прогресс-бару. А за несколько часов " Просканированно 2956 | В очереди 8695 | Собрано 11904 " Это очень мало. Если учесть, что на сайте 1500 товаров (многие в нескольких категориях), то даже если товар посчитан 4 раза должно быть около 6000 ссылок на товары и около сотни ссылок категорий. Непонятно откуда цифра в значении "Собрано"?

 

Тут пришла пора описать следующий нюанс на который я обратил внимание...

3. Если во время сканирования перейти на другую вкладку, то оно останавливается.
Если остановка не устранима, то надо будет упомянуть этот момент в инструкции, когда она будет.


Всю тему не читал, поэтому, сорри, если что-то уже упоминалось..

 

Продолжение следует...

Edited by SiteMix
  • +1 1

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
You are posting as a guest. If you have an account, please sign in.
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.


  • Similar Content

    • By igyan
      1 000.00 руб
      Скачать/Купить дополнение


      Парсер-менеджер товаров с торговых площадок
      Модуль Парсер-менеджер товаров с торговых площадок
      Предназначен для обновления и добавления товаров с торговых площадок Яндекс-маркет(категории электроника, бытовая техника, компьютеры и некоторые дугие), Hotline.ua, Onliner.by .
      Для работы парсера необходим ionCube и версия PHP не ниже 5.3
      Работает на версиях 1.3.1.3- 2.3
      Модуль имеет привязку к домену, для каждого домена приобретается отдельная лицензия.
      Для покупки лицензии обращаться в личку
      Демо:
      http://www.oc-parser.ru/opencart/oc1541/admin/index.php?route=module/parsermanager
      User: demo
      Password: demo
      Видео как работает парсер:
      http://www.oc-parser.ru/index.php?r=site/page&view=demomanager
      Возможности:
      Добавление, обновление товаров . Автоматический поиск товара на сайте-доноре по названию товара или модели. Сохранение постоянных ссылок на товары с сайта донора, для дальнейшего использования ссылки. Гибкое использование фильтров для поиска редактируемых товаров, по отсутствию характеристик, описания, цены, изображения или целой категории товаров. Возможность выбора данных для обновления, данные указываются для каждого источника, с одного можно парсить атрибуты с другого, цену, описание и тд. Возможность дополнять или заменять данные в товарах. Использование прокси-сервера или указание целого листа с прокси-серверами. С последующей проверкой доступности сайта –донора (Яндекс.Маркет ). После проверки прокси сортируются по времени доступа. Контроль при парсинге нескольких товаров, если произошло прерывание парсинга из-за обрыва, таймаута, их можно допарсить позже. Подробный лог парсинга. Внимание! Перед парсингом сделайте бэкап БД магазина.
      Необходима библиотека CURL в PHP.
       
      Установка:
      Копирование в корень магазина файлов из архива для 1 или 2 версии. После запуска модуля создастся две таблицы в БД, одна для хранения ссылок на товары, другая для хранения ссылок при парсинге нескольких товаров. Настройка парсера согласно скрина, пустых значений не должно быть. Обновить таблицы парсера. Для торг.маил.ру и яндекса обязательно подкинуть куки, после посещения донора.  
      Принцип работы модуля:
      После установки модуля необходимо сделать первоначальные настройки для парсера и для сайтов-доноров, указывается сайт источник.
      Обязательно нажать «Сохранить». После настроек модуль готов к работе. Будут показаны товары, указанные в фильтре, или все если фильтр не используется.
      Обновление товаров.
      Для поиска товара необходимо нажать «Поиск» и будет произведен поиск товара по названию или модели. В появившемся списке товаров выбирается нужный, после чего ссылка на товар постоянно запомнится в парсере. Если поиск не дал результатов, можно ввести прямую ссылку на товар, скопировав ее с сайта источника. Для этого нужно нажать «+». Также есть возможность поиска товара по произвольному запросу(не по названию товара или модели). Для это нужно нажать «Ввести запрос» и ввести в поле, что необходимо найти.
      После появления ссылки с строке товара, товар можно парсить, есть возможность указать новую цену для товара, предварительно убрав галочку «Заменять цену» в настройках .
      Также возможен парсинг нескольких товаров, для этого нужно выбрать товары и нажать «Парсить все». Будут спарсены товары у которых есть ссылки.
      ВАЖНО! Парсинг нескольких товаров может быстро привести к бану, в особенности Яндексом, поэтому используйте эту функцию, если имеете прокси-сервера.
      При использовании фильтров по пустым атрибутам, изображениям и тд., после парсинга данных значений они не будут отображаться в парсере.
      Добавление новых товаров.
      Товары будут добавляться с выбранного сайта-источника. Для поиска товара надо нажать «Найти товар», можно сразу ввести прямую ссылку, нажав «+». После появления ссылки, можно парсить товар, нажав «Добавить товар». Для новых товаров можно указать категорию для отображения.
      Модуль адаптирован под версию 2.3. Проверено на версии 2.0, 2.1, 2.2, 2.3.
      В связи с тем что, с парсером постоянно возникают проблемы по независящим от автора и кода причинам: смена верстки донарами, отсутствие изображений, характеристик на некоторых страницах и капча тд. Постоянных просьб настроить парсер и напарсить товаров.
      С января 2018 продление  лицензией на год будет 600 р.
      На второй и последующие скидка при покупке нового парсера
       
       
      Добавил igyan Добавлено 20.02.2014 Категория Парсеры Системные требования Ioncube PHP>5.3 Метод активации По запросу в ЛС Ioncube Loader Требуется OpenCart 2.3
      2.2
      2.1
      2.0
      1.5.6.4
      1.5.6.3
      1.5.6.2
      1.5.6.1
      1.5.6
      1.5.5.1
      1.5.5
      1.5.4.1
      1.5.3.1 ocStore 2.3
      2.2
      2.1
      1.5.5.1.2
      1.5.5.1.1
      1.5.5.1
      1.5.4.1.2
      1.5.4.1.1
      1.5.4.1
      1.5.3.1
      1.5.2.1
      1.5.1.3 OpenCart.Pro, ocShop Не проверялось Обращение к серверу разработчика Старая цена  
    • By legioner26
      Разработан многофункциональный модуль Opencart Zoom для зуммирования изображений в карточке товара с выбором вариантов исполнения.
      ПРИМЕЧАНИЕ !!!
      Если у Вас не стандартный шаблон то для корректной работы настоятельно рекомендую проверить установлены ли иные плагины зумма.
      Не забываем очищать кешь на сайте при изменении настроек. Сочетание клавишь (Ctrl+F5)
       
      DEMO Логин: demo Пароль: demo
      http://mvc-cart.ru/index.php?route=product/product&product_id=30
       
       
      ПРОСМОТР РАБОТЫ МОДУЛЯ Кликнуть по тексту чтобы просмотреть.
       
      По адаптации шаблонов пишите в ЛС
       
      Тестировался с шаблонами Moneymaker 2, ROUNDSHOP, Corsica, Fiji, pixelshop и многими другими.
       
      Вариант №1
       
      Зуммирование в отдельном блоке, от изображения либо вывод в любом другом
       
      Вариант №2
       
      Зуммирование со скроллом внутри блока с изображением
       
      Вариант №3
       
      Зуммирование в виде лупы с настройками по ширине и высоте.
       
       
       
      Установка:
      1. Копируем содержимое исходя из версий ОС на хостинг в корень сайта 
      2. В модификаторах чистим кешь и обновляем.
      3. Пишем в личку номер вашего заказа, я высылаю Вам ключ.
       
       
      https://opencartforum.com/profile/723002-legioner26/?tab=field_core_pfield_13 ->> СЕО сопровождение магазинов под управлением OpenCart
       
    • By legioner26
      1 299.00 руб
      Скачать/Купить дополнение


      Модуль зуммирования изображений товара - ZoomPRO
      Разработан многофункциональный модуль Opencart Zoom для зуммирования изображений в карточке товара с выбором вариантов исполнения.
      ПРИМЕЧАНИЕ !!!
      Если у Вас не стандартный шаблон то для корректной работы настоятельно рекомендую проверить установлены ли иные плагины зумма.
      Не забываем очищать кешь на сайте при изменении настроек. Сочетание клавишь (Ctrl+F5)
       
      DEMO Логин: demo Пароль: demo
      http://mvc-cart.ru/index.php?route=product/product&product_id=30
       
       
      ПРОСМОТР РАБОТЫ МОДУЛЯ Кликнуть по тексту чтобы просмотреть.
       
      По адаптации шаблонов пишите в ЛС
       
      Тестировался с шаблонами Moneymaker 2, ROUNDSHOP, Corsica, Fiji, pixelshop и многими другими.
       
      Вариант №1
       
      Зуммирование в отдельном блоке, от изображения либо вывод в любом другом
       
      Вариант №2
       
      Зуммирование со скроллом внутри блока с изображением
       
      Вариант №3
       
      Зуммирование в виде лупы с настройками по ширине и высоте.
       
       
       
      Установка:
      1. Копируем содержимое исходя из версий ОС на хостинг в корень сайта 
      2. В модификаторах чистим кешь и обновляем.
      3. Пишем в личку номер вашего заказа, я высылаю Вам ключ.
       
       
      https://opencartforum.com/profile/723002-legioner26/?tab=field_core_pfield_13 ->> СЕО сопровождение магазинов под управлением OpenCart
       
      Добавил legioner26 Добавлено 20.05.2019 Категория Меню, дизайн, внешний вид Системные требования Ioncube Loader Метод активации По запросу в ЛС Ioncube Loader Требуется OpenCart 3.0
      2.3
      2.2
      2.1
      2.0 ocStore 3.0
      2.3
      2.2
      2.1 OpenCart.Pro, ocShop Opencart.pro 2.3
      Opencart.pro 2.1
      OcShop 2.0.3.х Обращение к серверу разработчика Нет Старая цена 3500  
    • By Chigan
      1. Что надо? 
      - Наполнить сайт ассортиментом поставщика;
      - Возможность выгружать остатки, тем самым скрывать карточки, которых нет в наличии и отображать, которые есть;
      - Автоматически создать категории и подкатегории, атрибуты по характеристикам, производители, бренды и т.д., что необходимо;
      - Определять позиции из прайса, где нет карточек;
      - Сделать так, чтобы сайт не ложился и выдерживал нагрузку. Работал нормально.
      * Возможно рассмотрение предложений, как решить эти задачи Вашим методом.
       
      2. Что есть от поставщика? 
      Для начала возьмем 1 поставщика. От него есть: 
      - Excel остатков на 188 тысяч строк со столбцами Бренд - Каталожный номер - Описание - Остаток - Кратность отгрузки - Валюта - Цена - странный Штрихкод, скорее это артикул (конечно будет постепенная загрузка, по мере этого и место будет увеличиваться);
      - Личный кабинет, где оформляться будут заказы, с каталогом и картинками для парсинга.
       
      3. Что еще есть?
      - Виртуальный хостинг пока что с 2 Гб. Естественно этого мало и по мере загрузки будем увеличивать;
      - Модуль Автоматической обработки прайс-листов.
       
       
      ** также на очереди еще 3 поставщика с ассортиментом до 10 000.

    • By GeorgyM
      Написать личное сообщение КЛИК
      Вы можете задать мне любые вопросы в личном сообщении.
      Я постоянно присутствую на форуме.
      ============================================-=====================================
      Услуги по наполнению Вашего сайта. обновлению цен, остатков, автоматизации.
      Парсинг и загрузка на Ваш сайт, товаров для Opencart, каталогов, статей, блогов, галерей, отзывов, обзоров всего, что угодно.
      Парсинг Яндекс Маркета, Авито, Юлы, Price.ru любого сайта Вашего конкурента или поставщика.
      Могу собрать данные в Excel и CSV любого формата, а так же импортировать в Вашу базу данных.
         
       
      Я могу собрать любые данные в интернете и импортировать их на Ваш сайт.
      Срок работ от "супер срочно - сделать прямо сейчас"!  
        
      Как начать работать со мной: 
      Укажите сайт, с которого нужно собрать данные (Домен)
      Укажите дополнительные пожелания   
       
      НЕ НУЖНО ЗАПОЛНЯТЬ СЛОЖНОЕ ТЕХНИЧЕСКОЕ ЗАДАНИЕ
      В переписке согласуем Все детали.
       
      Загрузка на Ваш сайт или передача Вам файла в формате Вашего модуля импорта.
      Быстро, конфиденциально 
      Указана базовая стоимость.
       
      В зависимости от сложности проекта цена может быть изменена по согласованию.
      Любая сложность парсинга!
       
      Чтобы сэкономить время на переписке, прошу внимательно отнестись к строкам ниже, по поводу ТЗ для Парсинга. Я должен понимать какие, работы мне для Вас делать, а без ТЗ я этого понять не смогу.
       
      Для понимания ТЗ мне нужно получить краткое ТЗ:
      Если Вам нужно получить от меня только файл для импорта и каталог картинок: дайте мне адрес сайта-донора, пример файла, который Вам нужно получить с заполненными 2-3 строками, комментарии, этого будет достаточно.  
      Если Вы хотите, чтобы я для Вас спарсил и загрузил товары: напишите мне адрес сайта-донора. Можете схематично показать какие данные со страницы донора, должны быть перенесены на Ваши страницы (в виде простых рисунков)  
      Часто возникает вопрос как скопировать товары с одного интернет магазина и загрузить товары в свой интернет магазин.
       
      Особенно Важно парсить товары если нужно перенести большой каталог на свой сайт интернет магазина, так как руками копировать товары очень долго. 
       
      Я могу спарсить самые сложные сайты: со скриптами, защитами, различными Post запросами, и предоставить Вам данные в CSV или Excel файле, нужного Вам формата.
       
      Могу загрузить опции товаров, атрибуты товаров, дополнительные картинки и тексты, отзывы.
       
      Провести нужные манипуляции с ценами и скидками на товары и прочие сложные операции.
      Могу привести каталог категорий к нужному виду, скопировав картинки и описания категорий.
       
      От Вас потребуется только, домены сайтов откуда копировать каталог, и если Вы планируете загружать самостоятельно данные в Ваш интернет магазин, пример файла в который Вам записать данные.
      Скрипт автоматического наполнения магазина, так же могу разработать.
  • Recently Browsing   0 members

    No registered users viewing this page.

×

Important Information

On our site, cookies are used and personal data is processed to improve the user interface. To find out what and what personal data we are processing, please go to the link. If you click "I agree," it means that you understand and accept all the conditions specified in this Privacy Notice.