Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Recommended Posts

Цитата

Я думаю это частично закроет эту подробность. 
Более глобальные переделыванию готов буду делать позже когда будет протестирована эта версия модуля. 

 

Большое спасибо, конечно этого будет вполне достаточно )

Надіслати
Поділитися на інших сайтах


Ещё, как вариант, можно дополнить модуль ограничением на количество ссылок. Например, я смотрю, что у меня на сайте есть реально 100 товаров, ссылки на которые хочу получить, т.е. количество я знаю и выставляю его в поле и жду не окончания перебора всех возможных ссылок. а только когда будет "собрано" уже известное мне количество ссылок на товары.Можно конечно просто сидеть и смотреть на монитор. когда они насобираются, но вопрос в полной автоматизации, без контроля со стороны оператора.

 

И ещё исправьте, пожалуйста, на кнопке "Повторить фитрацию" на "Повторить фильтрацию"

Змінено користувачем Axelenz
Исправления
Надіслати
Поділитися на інших сайтах


3 минуты назад, Axelenz сказал:

Ещё, как вариант, можно дополнить модуль ограничением на количество ссылок. Например, я смотрю, что у меня на сайте есть реально 100 товаров, ссылки на которые хочу получить, т.е. количество я знаю и выставляю его в поле и жду не окончания перебора всех возможных ссылок. а только когда будет "собрано" уже известное мне количество ссылок на товары.Можно конечно просто сидеть и смотреть на монитор. когда они насобираются, но вопрос в полной автоматизации, без контроля со стороны оператора.

Если вы знаете точное количество ссылок, значит оно строго задано определенной частью url 
А значит вы можете точно задать фильтр Шаблон ссылок.
Во всех остальных случаях когда вы точно знаете что товаров 10 но ссылок похожих на товар 1000 то если вы зададите ограничение вы получите 10 совпадений ссылок но ни в коем случаи не те 10 ссылок что вам нужны. 


 

Змінено користувачем Rassol2
Надіслати
Поділитися на інших сайтах

Сейчас я считаю в подкатегории сколько товаров реально есть в ней и потом жду, когда в "собрано" появляется нужное мне количество. К сожалению, ограничивая максимально фильтрами сбор ссылок я недополучаю иногда по 1-2 ссылке, как я заметил... поэтому использую вот такой метод с визуальной проверкой. Получается, когда прерываю сбор ссылок, когда уже насобирал нужные мне, остаётся ещё с полтысячи ссылок, которые мне уже дальше не нужны... т.е. я так экономлю время.

 

Как на рисунке...у меня уже собрано количество необходимых ссылок на товар - 69, а в очереди ещё стоит полтысячи... но они мне не нужны...

00001.jpeg

Змінено користувачем Axelenz
Надіслати
Поділитися на інших сайтах


33 минуты назад, Axelenz сказал:

Сейчас я считаю в подкатегории сколько товаров реально есть в ней и потом жду, когда в "собрано" появляется нужное мне количество. К сожалению, ограничивая максимально фильтрами сбор ссылок я недополучаю иногда по 1-2 ссылке, как я заметил... поэтому использую вот такой метод с визуальной проверкой. Получается, когда прерываю сбор ссылок, когда уже насобирал нужные мне, остаётся ещё с полтысячи ссылок, которые мне уже дальше не нужны... т.е. я так экономлю время.

Это пока вы не набили руку. Я уверен что это можно сделать настройками фильтров. 

Либо как я уже писал будет ведено еше одно понятие повторяющие границы парсинга. 
С их появлением вы сможете поменять подход. А именно.

Собираете ссылки на все категории и их страницы. 
Затем на вкладке настройки Параметры парсинга (нужно переименовать в настройки парсинга :) ) вы настраиваете повторяющую границу парсинга на получение ссылки на товар. 

И жмете старт. 
В итоге получите все ссылки на страницы товара в файле CSV


Как это наглядно будет выглядеть.
Вы собрали ссылки на все категории и их страницы. Это как правильно не сложно и их не так много как товаров.
Затем настроили повторяющие границы парсинга на ссылку товара внутри страницы категории.
 

 

Спойлер

1676763795__2018-12-13_20-25-41.thumb.png.e936011ce1ac44826aae3976ba19024b.png

 


примерно так 

 

Спойлер

1887823576__2018-12-13_20-25-29.thumb.png.d5cdda9f565692775a8a5558f0a7e815.png



И испарили в csv в первую колонку ссылки на товар. Вот так можно получать все ссылки на товар без фильтров. 

 


Но сейчас это можно и нужно делать через параметры фильтра

это просто два подхода к решению одной и той же задачи. Кому как удобно.
Но сейчас я реализовал пока только вариант с фильтрами. 
 

Змінено користувачем Rassol2
Надіслати
Поділитися на інших сайтах

34 минуты назад, Axelenz сказал:

Как на рисунке...у меня уже собрано количество необходимых ссылок на товар - 69, а в очереди ещё стоит полтысячи... но они мне не нужны...

 

Спойлер

00001.jpeg

 


Что бы такое не повторялось используйте эти окна

Спойлер

83648836c7.thumb.png.26e1b6ba9779db5de97ed0c80d141f00.png


Они как раз и созданы что бы сузить выборку. И не делать как вы делаете.

Надіслати
Поділитися на інших сайтах

Я в очереди сканирования ничего не ставлю потому как нашёл разницу в количестве спарсенных товаров.Шаблоны использую уже дальше в выдаче ссылок и получаю то, что хотел.

Надіслати
Поділитися на інших сайтах


Только что, Axelenz сказал:

Я в очереди сканирования ничего не ставлю потому как нашёл разницу в количестве спарсенных товаров.Шаблоны использую уже дальше в выдаче ссылок и получаю то, что хотел.

В это и проблема.
Шаблон очереди как раз и отвевает за это количество 
c645ae367d.thumb.png.fce02980ba2b65251e4cdb52643116ca.png

если вы укажите тогда ненужно будет ждать и смотреть. Модуль будет ходить только там где нужно. И брать только то что нужно. 
и у вас исчезнет потребовать в функции остановки от определенного количества найденных. 

пробуйте, я думаю вам понравится. :) 

  • +1 1
Надіслати
Поділитися на інших сайтах

Подготовил и выгрузил новое обновления. 
Ну что по очереди пойдем.

Из заметных изменений
1. Благодаря пользователю @kikaridza123  было добавлена нумерация строк в обозревателя кода. За что ему спасибо.
 

Спойлер

e43d4bcb18.thumb.png.0361109a5678486dacf38d2dd476db78.png

 

Были добавлены функции для редактирования ссылок очереди, и ссылок выдачи.
теперь можно их заносить вручную если у вас на руках есть перечень ссылок. 
Важно каждая ссылка должна быть написана с новой строки.
 

Спойлер

02fb7d02b8.thumb.png.bf89396b82e73b7a385718154eb4c4a4.png

Это для вас @Axelenz сделано можете теперь добавлять ссылки сгенерированные в экселе. 

3. При нажатии стоп на странице сбора ссылок теперь не просто останавливается парсинг но и делается перезагрузка страницы что бы вы могли сразу видеть актуальную информацию.


4. На странице настройки CSV В выпадающем списке выбора ссылок для пред просмотра было добавлена нумерация ссылок.
Так же ограничено отображение длинных ссылок что бы не ломать верстку. Ограничение в 190 символов. 
Так же для пред просмотра выводится максимум 5000 ссылок. При тестировании оказало долговато грузится страница когда попадается 10 000 ссылок для пред просмотра. Думаю это незачем. 

Так теперь то что не заметно. 
1. Модуль теперь работает через cURL 
2. Создал зачатки логирования. Теперь в директории /admin/uploads/ создается log файл в который идут все выхлопы от запросов модуля к другим сайтам. 
Имя файла формируется по принципу logs_[id формы]_[2018-12-14].log
Логи сами не удаляются.
Вообще пока что у меня нету опыта что в логах нужно что нет как писать и хранить, так что реши сделать пока что так. 

Сейчас в логах пишутся только ответы сервера на запрос. Дальше по мере необходимости буду думать что добавить. 
Как это выглядит:

Спойлер


Цитата

Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/policyandsafety/uk/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/testtube
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//support.google.com/youtube/answer/1738660?hl=en
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com/javascript:void(0)
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//support.google.com/youtube/?hl=uk
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//support.google.com/youtube/answer/1738660?hl=uk
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/t/terms
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/dev/uk/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/advertise/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/creators/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/t/contact_us
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/copyright/uk/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/press/uk/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com//www.youtube.com/yt/about/uk/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/dev/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/dev/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/brand-resources/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/brand-resources/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/copyright/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://support.google.com/youtube/answer/2797370
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com/brand-resources/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/policies/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/lineups/en/index.html
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/press/
Парсинг : ОШИБКА Страница не найдена. Ответ сервера [404] Ссылка | https://www.youtube.com/yt/dev/en/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/creators/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/advertise/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/musicpremium/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/intl/en/yt/about/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/policies/#community-guidelines
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_monochrome_light_icon.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_monochrome_dark_icon.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_full_color_icon.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_monochrome_logos.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_full_color_dark_logo.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/yt/about/media/downloads/youtube_full_color_light_logo.zip
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/user/advertise
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/copyright/
Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://www.youtube.com/


 

Система логов поможет понять почему сканирование ссылок идет, а в очередь или в выдачу новые не попадают. 
может так произойти что вас забанило. 
Пока логи на большую часть ответов могут отдавать не определен код ответа и номер ответа. Пишите такие коды здесь на форуме и я их добавлю. 
код ответа написан в квадратных скобках [404]

Как то так. 

Единственное что хочу напомнить:
Господа не забываем что модуль это веб приложение и он подчиняется настройкам веб сервера. 
А значит нельзя взять файл размером в 20мб в котором одни ссылки. И скопировать их в очередь ссылок или выдачи и сохранить. 
не забывайте что есть ограничение на размер POST запроса. 

Вроде все. 
Обновитесь, пользуйтесь. 

Змінено користувачем Rassol2
  • +1 1
Надіслати
Поділитися на інших сайтах

2 часа назад, Rassol2 сказал:

пользуйтесь. 

Запустил вчера парсинг,
сегодня пришел утром к 10 часам было спарсено 521 ссылка,  ( вообщем модуль прекратил свою работу вчера вечером еще) 
подозреваю что из-за окончания сессии ( так как после перезагрузки страницы - нужно было снова авторизоваться)
--
Сейчас запустил далее парсинг
http://prntscr.com/lutcf8
Будем ждать. 

Надіслати
Поділитися на інших сайтах


1 минуту назад, kikaridza123 сказал:

Запустил вчера парсинг,
сегодня пришел утром к 10 часам было спарсено 521 ссылка,  ( вообщем модуль прекратил свою работу вчера вечером еще) 
подозреваю что из-за окончания сессии ( так как после перезагрузки страницы - нужно было снова авторизоваться)
--
Сейчас запустил далее парсинг
http://prntscr.com/lutcf8
Будем ждать. 

Окончание сессии. Интересно. 
Вообще не должно быть потому что каждая ссылка это отправление post запроса с указанием токена.
Это должно продлевать жизнь сессии. 
Отпишитесь по результату. У вас прям в лоб стресс тест пошел ))

Надіслати
Поділитися на інших сайтах

Добрый день!

Подскажите, пожалуйста, скачала и установила модуль. Все вроде ок. Так же установлен модуль АОП. 

Какой должен быть алгоритм действий? Есть файл поставщика, где есть артикул, название, цена, наличие, но нет ни описаний, ни характеристик, ни фото.

Есть сайт поставщика, откуда можно спарсить фото товара и немного характеристик. Артикул и название товара совпадают в прайсе и на сайте поставщика. 

Для модуля АОП мне нужно собрать ссылки на страницы товара и добавить их в прайс поставщика чтобы там настроить парсинг. 

Как это с помощью модуля сделать пошагово? 

1. Собрать ссылки во вкладке сбор ссылок.

2 А во вкладке параметры парсинга что можно сделать?

 

Пока хочется алгоритм понять от сбора ссылок, до момента как добавить эти ссылки в файл excel для АОП. 

 

Надіслати
Поділитися на інших сайтах


На данном этапе я бы на вашем месте собрал ссылки на сайт поставшика. И просто записал в файл Ексель. А весь парсингу настроил через аоп . 

Либо всё собрать и спросить этим модулем а фото и характеристики через аоп .

 

По поводу вкладки параметры парсингу. Там нужно указать начало и конец парсинга для каждого элемента. Инструкция пока не готова. К сожелению. На примере какой то ссылки могу показать 

Змінено користувачем Rassol2
Надіслати
Поділитися на інших сайтах

27 минут назад, Rassol2 сказал:

На данном этапе я бы на вашем месте собрал ссылки на сайт поставшика. И просто записал в файл Ексель. А весь парсингу настроил через аоп . 

Либо всё собрать и спросить этим модулем а фото и характеристики через аоп .

 

По поводу вкладки параметры парсингу. Там нужно указать начало и конец парсинга для каждого элемента. Инструкция пока не готова. К сожелению. На примере какой то ссылки могу показать 

А как потом совместить 2 файла экселя? Файл поставщика и файл с собранными модулем ссылками на товар? 

 

В параметры парсинга зачем люди лезут? Что обычно парсят там?

 

Я, наверное самую элементарщину спрашиваю, понять основу нужно, чтоб дальше двигаться...

Надіслати
Поділитися на інших сайтах


Только что, Eugeniyaya сказал:

А как потом совместить 2 файла экселя? Файл поставщика и файл с собранными модулем ссылками на товар? 

 

В параметры парсинга зачем люди лезут? Что обычно парсят там?

 

Я, наверное самую элементарщину спрашиваю, понять основу нужно, чтоб дальше двигаться...

первая вкладка поможет вам собрать ссылки.
Но вам нужно получить не только ссылки но и цену название. 

Вот что бы выделить из страницы цену и название вам нужно вкладка настройки парсинга. 
Допустим вам нужно спарсить все названия товаров. 
вы собрали все ссылки на товары. Затем заходите в вкладку парамтеры парсинга и делаете так.
http://joxi.ru/D2PYagbuqpvP5A

После чего идете в колонку настройки CSV и делаете так.
http://joxi.ru/Dr8yGa0fo4d8ym

и снизу видите пример csv файла что вы получите. 
затем жмете парсинг и у вас на выходе такой прайс.
1402551194__2018-12-14_14-13-38.thumb.png.d7700e1d62652abbcc4aeac07bfa4edc.png

По аналогии можно сделать прайс с любыми данными с сайта донора.

для этого и нужно идти в вкладку параметры парсинга

Надіслати
Поділитися на інших сайтах

7 минут назад, Rassol2 сказал:

первая вкладка поможет вам собрать ссылки.
Но вам нужно получить не только ссылки но и цену название. 

Вот что бы выделить из страницы цену и название вам нужно вкладка настройки парсинга. 
Допустим вам нужно спарсить все названия товаров. 
вы собрали все ссылки на товары. Затем заходите в вкладку парамтеры парсинга и делаете так.
http://joxi.ru/D2PYagbuqpvP5A

После чего идете в колонку настройки CSV и делаете так.
http://joxi.ru/Dr8yGa0fo4d8ym

и снизу видите пример csv файла что вы получите. 
затем жмете парсинг и у вас на выходе такой прайс.
1402551194__2018-12-14_14-13-38.thumb.png.d7700e1d62652abbcc4aeac07bfa4edc.png

По аналогии можно сделать прайс с любыми данными с сайта донора.

для этого и нужно идти в вкладку параметры парсинга

Спасибо огромное, уже понятнее, картина мира проясняется) как с модулем работать.

Только на выходе я получаю два файла для заливки товара на сайт. Собраный модулем + прайс поставщика. Их же нужно объединить чтоб скормить АОП? Ну т.е есть в прайсе 5000 товаров, артикулы одинаковые с новым файлом, но порядок строчек в файлах разный. Просто так не скопировать столбики. Неужели вручную искать какому товару ссылка соответствует? Или эксель как-то может по артикулу найти и расставить все по местам? 

Или в АОП поочереди 2 разных файла заливать, а он там по артикулам сам как нибудь разберется?

Надіслати
Поділитися на інших сайтах


18 минут назад, Eugeniyaya сказал:

Или в АОП поочереди 2 разных файла заливать, а он там по артикулам сам как нибудь разберется?

и вот вы сами нашли правильное решение.
Если у вас есть файл где есть все данные кроме (Например) фото и описания.
Вы можете спарсить файл моим модулем в котором указать артикул, ссылку на фото, описание, и цены. 
А затем полученный прайс скормить АОП с действием обновлять. 
Вот и ваше решение. 

Надіслати
Поділитися на інших сайтах

20 минут назад, Rassol2 сказал:

и вот вы сами нашли правильное решение.
Если у вас есть файл где есть все данные кроме (Например) фото и описания.
Вы можете спарсить файл моим модулем в котором указать артикул, ссылку на фото, описание, и цены. 
А затем полученный прайс скормить АОП с действием обновлять. 
Вот и ваше решение. 

Уффф, спасибо!!!! Теперь по местам все встало))). Но со сбором ссылок уже вижу вопросы появятся. Спасибо огромное за поддержку. Жаль что плюсы в репутации закрыли(((  

Надіслати
Поділитися на інших сайтах


3 часа назад, Eugeniyaya сказал:

Уффф, спасибо!!!! Теперь по местам все встало))). Но со сбором ссылок уже вижу вопросы появятся. Спасибо огромное за поддержку. Жаль что плюсы в репутации закрыли(((  

задавайте будем помогать. 

Надіслати
Поділитися на інших сайтах

Сегодня внедрял повторяющиеся границы парсинга. 
И почти закончил, а это значит что скоро будет огромный скачек в развитии модуля. 
Вот к примеру чего можно добиться используя повторяющие гранизы парсинга. 
http://joxi.ru/a2XZ1ldfw1daJr

Все колонки обведенные получены при помоши повторяющих границ. 
к примеру 
Г фото, допустим у вас есть главное фото, но у него нету уникального текста начала и конца парсинга. При помощи повторяющихся границ это стало возможно.
Так же собрать все фото в одну ячейку с разделителем тоже доступно. Как в ячейке Доп фото.
Так же теперь собираются категории товара. Как в ячейке Категории.
И те кто владеют екселем уже поняли что при помощи функции разделить по признаку ; можно получить полностью готовы прайс для загрузки в АОП

Сбор атрибутов это очень сложная задача. Я не могу сказать что уже это решено, но простейшие атрибуты можно собирать без проблем.  
После появления функции поиск замена, вопрос с парсингом атрибутов будет полностью закрыт. 

Так похвастался а теперь дальше писать. 
Как только закончу тестирования выкачу новую версию. 

Еше пару скриншотов по порядку формирования данных при помощи повторяющихся границ парсинга. 

Спойлер


Создаем обычную границу парсинга.

e43d4bcb18.thumb.png.36cd1c12025fbb6b4bfbcda0dd43f8a7.png

 

 Создаем повторяющуюся границу парсинга внутри обычной. :cool:

742321b0b8.thumb.png.ec52b5394fc53ec2a86b220c448a7e0e.png

 

Выводим данные с повторяющейся границы парсинга.

b497e009ae.thumb.png.7184c16c89b1d94a8d8867dd88123ac3.png

 

 

Ждите обновления. :rolleyes:

Надіслати
Поділитися на інших сайтах

Жду с нетерпением, хочеться глянуть и попробовать, а то у меня на 1.0.3 таблица не создаётся ни на локалке, ни на сервере, ни на одном из рабочих сайтов (((

 

Выдаёт то ошибку

 

Notice: Undefined index: csv_name in I:\OSPanel\domains\localhost\admin\model\catalog\simplepars.php on line 415

 

или

 

Notice: Undefined index: csv_name in /home/admin/web/sub.dom.com.ua/public_html/admin/model/catalog/simplepars.php on line 415Warning: Cannot modify header information - headers already sent by (output started at /home/admin/web/sub.dom.com.ua/public_html/admin/index.php:80) in /home/admin/web/sub.dom.com.ua/public_html/system/library/response.php on line 12

 

то ещё какую фигню, но парсить не хочет...

  • +1 1
Надіслати
Поділитися на інших сайтах


5 часов назад, Axelenz сказал:

Жду с нетерпением, хочеться глянуть и попробовать, а то у меня на 1.0.3 таблица не создаётся ни на локалке, ни на сервере, ни на одном из рабочих сайтов (((

 

Выдаёт то ошибку

 

Notice: Undefined index: csv_name in I:\OSPanel\domains\localhost\admin\model\catalog\simplepars.php on line 415

 

или

 

Notice: Undefined index: csv_name in /home/admin/web/sub.dom.com.ua/public_html/admin/model/catalog/simplepars.php on line 415Warning: Cannot modify header information - headers already sent by (output started at /home/admin/web/sub.dom.com.ua/public_html/admin/index.php:80) in /home/admin/web/sub.dom.com.ua/public_html/system/library/response.php on line 12

 

то ещё какую фигню, но парсить не хочет...

Скиньте в личку фтп доступ и я посмотрю в чем у вас ошибка, и если что добавлю фик в релиз. 
Пока что я такую не встречал у себя. 

Надіслати
Поділитися на інших сайтах

Выкатил обновление 1.0.в котором только устранение 2 ошибок но критичных.
Спасибо пользователю @Axelenz  что предоставил доступ для отлови.

Ошибка касается только тех пользователей то переходил от версии к версии, а не устанавливал с нуля. 
а именно ошибка, при заходе в вкладку Настройка CSV / Запуск парсинга данных

 

Notice: Undefined index: csv_name in ..../public_html/admin/model/catalog/simplepars.php on line 415


Для устранения ошибки вам необходимо, залить файлы модуля по верх с заменой, и ОБЯЗАТЕЛЬНО выполнить скрипт /inst.php

Змінено користувачем Rassol2
Надіслати
Поділитися на інших сайтах

Выложил новую версию 1.1 с добавлением нового функционала. 

Что нового в этой версии.

Немного причесал страницу сбора ссылок, и исправил недочеты в коде. 
 

Спойлер

1.thumb.png.b0dda23e5afba4bc78d2b812cbda8254.png


На странице Настройки парсинга появилась возможность использовать повторяющие границы парсинга. 
Суть функции на пальцах. 

Первый сценарий применения
Допустим вам нужно спарсить значение код товара из этого куска кода. 
 

<div class="line-info">
<span>Код товара</span>
<span>1458391</span>
</div>
<div class="line-info">
<span>Артикул</span>
<span itemprop="sku">00001089</span>
</div>

Здесь у вас нету за что зацепится что бы получить чистый код товара. Но при помощи функции повторяющиеся границы во можете сделать так. 
Создать границу парсинга с названием Границы. и указать ей параметры 
Старт - <span>Код товара</span>
Стоп - </div>

После этого модуль отрежет от всей страницы только нужный вам кусок кода. А именно
 

<span>1458391</span>


Затем в поле Область для повторяющей границы парсинга выбираем Границы

 

Старт - <span>
Стоп - </span>

поскольку теперь у нас только одно такое совпадение мы получим значение 1458391

Второй сценарий применения
Допусти нам нужно спарсить категории с хлебных крошек. 
 

<section class="main">
<section class="content-right card" itemscope itemtype="//schema.org/Product">
<div class="breadcrumbs">
<span>Крепеж и метизы</span> / <span>Саморезы, шурупы</span> / <a href="/catalog/F04020_samorezy_dlya_krepleniya_listovogo_metalla">Саморезы для листового металла и направляющих</a> / <a class="bold" href="/catalog/F0402020_samorezy_po_metallu_sverlo">Саморезы по металлу со сверлом</a>
</div>
<h1 itemprop="name">Саморез по металлу 4,2х25 сверлоконечный (5000шт)</h1>
<div class="card-left">

Представим что нам нужно только 2 первых категории. 

Создаем границу парсинг с именем Границы категорий и значением
Старт - <div class="breadcrumbs">
Стоп - </div>

Затем создаем повторяющиеся границу парсинга с именем Категории и в поле Область для повторяющей границы парсинга выбираем Границы категорий а так же указываем разделитель к пример символ |
и указываем старт и стоп.

 

Старт - <span>
Стоп - </span>
 

После обработки в ячейке эксель документа мы получим 

Крепеж и метизы|Саморезы, шурупы
Кому нужно такой прайс скормить АОП можете через функцию Текст по столбцам в экселе разнести каждую категорию в отдельную ячейку. 

Третий сценарий 
А вот третий сценарий будет полностью готов с версии 1.2,
В крации это точный сбор ссылок без лишних проходов по сайту донору. 

=============================================================

Настройка Повторяющихся границ парсинга

Создаем обычную границу парсинга
 

Спойлер

3.thumb.png.42edb05637e02e518a6272578ee831bd.png



Затем создаем повторяющуюся границу парсинга внутри обычной. И указываем разделитель.

 

Спойлер

9.thumb.png.ff3e295d0a457f0e565cadb1878919c2.png



Хочу обратить ваше внимание что Повторяющаяся граница парсинга может быть как внутри обычно границы, так и внутри всей страницы сайта. 

При оформлении CSV файла повторяющаяся граница парсинга помечена символом
 

Спойлер

6.thumb.png.05c59c7a3c866cb3ac553ad1ce197677.png


На выходе вы можете получить вот такой файл.
5.thumb.png.9546928305da3625a779574a0d4015db.png

Обратите внимание что уже можно парсить атрибуты , с простой разметкой. Так же обратите внимание как получилась структура категорий.


Другие изменения по мелочи.

 

В логах теперь выводится время.
1846429589__2018-12-17_11-40-52.thumb.png.a72b0eb5faf1668c779dcfca45ebe24a.png

На странице настройки csv появилась возможность выбора разделителя CSV файла, а так же символа экранирования.
7.thumb.png.e1c3d6beec871a76b677b5ce6c48f285.png

Для тех ребят кто использует не Эксель а свободные аналоги, опен офис, или wps офис. Короче главное дал выбор, а там можете разделителем хоть свое имя указать :)
 

Рестарт парсинга в файл.
Если вы сделал настройки начали парсить увидели что в файле что то не так, вы можете остановить поправить и запустить заново. 
Что бы процесс парсинга в файл начался с начала нужно нажать Перезагрузить ссылки8.thumb.png.aadd63ad4976c841ac21dbbf556d851d.png

И все ссылки из списка обработанные попадут в список ссылки в очереди.

Вроде все ничего не забыл.
Вроде мало. Но это повторяющие границы очень сильно раздвигают рамки возможностей. 
С нетерпением жду ваши отзывы. 

@Axelenz @kikaridza123 @SiteMix

Змінено користувачем Rassol2
  • +1 2
Надіслати
Поділитися на інших сайтах

Ух ты! Столько изменений, что впору перечитывать ветку чтобы разобраться что к чему...

 

Наверное не с того начинаю, но и на мелочи нужно обращать внимание...

 

1. Вкладка Сбор ссылок.
1.1. Блок в котором расположен заголовок страницы в panel-heading имеет класс "col-md-1" из-за чего заголовок переносится.

Спойлер

image.png.b14cfa07afb5d4e75e0091115b2b00c0.png

Очевидно, пропущена двойка. На других страницах класс правильный "col-md-12".

1.2. При заполнении данных и переходе на другую вкладку, заполненные данные не сохраняются. Если это возможно, то было бы хорошо не терять данные пока этот проект не закрыт. Как, например, в АОП. Там можно перемещаться по вкладкам и внесённые изменения не теряются.

1.3. Нет кнопки выхода из проекта. Только хлебные крошки. Предлагаю два варианта:
- добавить кнопку Применить, на которую перенести действие имеющейся кнопки, а по нажатию на имеющуюся кнопку Сохранить выполнять сохранение и выход;
- добавить кнопку выхода.

2. Вкладка Настройки парсинга. Вижу надпись: "Warning! Не выбрана ССЫЛКА для просмотра кода --->", а справа пустое поле, но оно схлопнуто наполовину.

Спойлер

image.thumb.png.1c2a57fa87e6b02b873c8a6f8e9d23a0.png

Думаю, даже пустое поле, должно быть хотя бы в одну строку. А в русской версии вместо Warning! лучше написать Внимание! И шрифт хорошо бы уменьшить.

Да и цвета я бы переделал на красный с чёрным. Или Чёрный шрифт на розовом фоне как в обычных алертах .
Как оказалось, надпись пока вбита прямо в контроллер, но, полагаю, это временно и она будет перенесена в локализацию.


Запустил сканирование. Почему-то сканирование не запустилось, а в логе такая строка:
2018-12-17 15:38:18| Парсинг : НЕИЗВЕТНЫЙ ОТВЕТ Ответ сервера не распознан. Код ответа [0] Ссылка | https://mnogotools.ru/
В прошлый раз сканирование этого же сайта запускалось. Хотя, тут возможен бан... В прошлый раз, как мне показалось, в какой-то момент сбор ссылок прекратился.

Запустил сканирование другого сайта. Процесс пошёл, но очень медленно. За несколько минут просканировано около 70 ссылок, если верить прогресс-бару. А за несколько часов " Просканированно 2956 | В очереди 8695 | Собрано 11904 " Это очень мало. Если учесть, что на сайте 1500 товаров (многие в нескольких категориях), то даже если товар посчитан 4 раза должно быть около 6000 ссылок на товары и около сотни ссылок категорий. Непонятно откуда цифра в значении "Собрано"?

 

Тут пришла пора описать следующий нюанс на который я обратил внимание...

3. Если во время сканирования перейти на другую вкладку, то оно останавливается.
Если остановка не устранима, то надо будет упомянуть этот момент в инструкции, когда она будет.


Всю тему не читал, поэтому, сорри, если что-то уже упоминалось..

 

Продолжение следует...

Змінено користувачем SiteMix
  • +1 1
Надіслати
Поділитися на інших сайтах


Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.