Перейти до вмісту
Пошук в
  • Детальніше...
Шукати результати, які ...
Шукати результати в ...

Парсинг картинок


Recommended Posts

Приветствую всех!

Делаю парсер. Парсер походу скачивает картинки по ссылкам на сервер.

 

$imageUrl = 'https:' . $this->getCell($data,$i,$j++);
$imageName = 'data/' . $productId . '_' . time() .".jpg";
if (!file_put_contents(DIR_IMAGE . $imageName, file_get_contents($imageUrl))) {
    $imageName = '';
}

Проблема в том, что ссылка бывает битая или сервер долго не отвечает.

В результате либо закачивается картинка с пустым содержанием, либо происходит таймаут и парсинг прекращается.

 

Как обработать данные события??

1. Как проверить существует ли картинка по ссылке?

2. Как сделать так чтобы в случае таймаута, парсер продолжил парсинг данных без картинки (ну или присвоил $imageName = 'no_image.jpeg')

 

Надіслати
Поділитися на інших сайтах


Возможно вам пригодится - есть готовый модуль для поиска картинок используя гугл

https://opencartforum.com/files/file/553-%D0%BF%D0%BE%D0%B8%D1%81%D0%BA-%D0%BA%D0%B0%D1%80%D1%82%D0%B8%D0%BD%D0%BE%D0%BA-%D0%B4%D0%BB%D1%8F-%D1%82%D0%BE%D0%B2%D0%B0%D1%80%D0%BE%D0%B2-%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D1%83%D1%8F-google/

в нем есть опция - искать на конкртном сайте, есть таймаут итд.

Надіслати
Поділитися на інших сайтах

Может пригодиться:

$Headers = @get_headers($url);
// проверяем ответ от сервера с кодом 200 - ОК
if(preg_match("|200|", $Headers[0])) {
//качаем прайс и начинаем парсить
//....код
}

Ну и можете ещё размер скачанного файла проверять. Чтобы не ставить с нулевыми размерами

Надіслати
Поділитися на інших сайтах

Есть библиотека exceptionizer.php отлично работает с file_get_content или можно парсить каждую картинку отдельным ajax запросом (так даже лучше). Т е спарсил страницу создал массив ссылок на картинки и потом foreach по каждой картинке ajax запрос с get_header и exceptionizer.php

 

Где-то так:

require_once(DIR_SYSTEM . 'library/exceptionizer.php');
$ver_link="http://...";
            $opts = array(
                  'http'=>array(
                    'method'=>"GET",
                    'header'=>    "User-Agent: " . $_SERVER['HTTP_USER_AGENT'] . " \r\n" .
                                "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 \r\n" .
                                "Accept-language: en-us,en;q=0.5\r\n" .
                                //"Accept-Encoding: gzip,deflate\r\n" .
                                "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7\r\n" .
                                "Keep-Alive: 300\r\n" .
                                "Connection: keep-alive\r\n" .
                                "Referer:".HTTP_SERVER."\r\n"

                  )
                );
            $context = stream_context_create($opts);
            $exceptionizer = new PHP_Exceptionizer(E_ALL);
            try {
                $ver_content = file_get_contents($ver_link, FALSE , $context);
            }  catch (E_WARNING $e) {
                // echo "Warning or better raised: " . $e->getMessage();
            }
Надіслати
Поділитися на інших сайтах

Есть библиотека exceptionizer.php отлично работает с file_get_content или можно парсить каждую картинку отдельным ajax запросом (так даже лучше). Т е спарсил страницу создал массив ссылок на картинки и потом foreach по каждой картинке ajax запрос с get_header и exceptionizer.php

 

Где-то так:

require_once(DIR_SYSTEM . 'library/exceptionizer.php');
$ver_link="http://...";
            $opts = array(
                  'http'=>array(
                    'method'=>"GET",
                    'header'=>    "User-Agent: " . $_SERVER['HTTP_USER_AGENT'] . " \r\n" .
                                "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 \r\n" .
                                "Accept-language: en-us,en;q=0.5\r\n" .
                                //"Accept-Encoding: gzip,deflate\r\n" .
                                "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7\r\n" .
                                "Keep-Alive: 300\r\n" .
                                "Connection: keep-alive\r\n" .
                                "Referer:".HTTP_SERVER."\r\n"

                  )
                );
            $context = stream_context_create($opts);
            $exceptionizer = new PHP_Exceptionizer(E_ALL);
            try {
                $ver_content = file_get_contents($ver_link, FALSE , $context);
            }  catch (E_WARNING $e) {
                // echo "Warning or better raised: " . $e->getMessage();
            }

где здесь аякс? :)

Надіслати
Поділитися на інших сайтах

Ну прямо всё и разжуй :)

А творческий полет мысли?

так вот потому и спрашиваю, что полет мысли вижу, а аякса не вижу ))
Надіслати
Поділитися на інших сайтах

Створіть аккаунт або увійдіть для коментування

Ви повинні бути користувачем, щоб залишити коментар

Створити обліковий запис

Зареєструйтеся для отримання облікового запису. Це просто!

Зареєструвати аккаунт

Вхід

Уже зареєстровані? Увійдіть тут.

Вхід зараз
  • Зараз на сторінці   0 користувачів

    • Ні користувачів, які переглядиють цю сторінку

×
×
  • Створити...

Important Information

На нашому сайті використовуються файли cookie і відбувається обробка деяких персональних даних користувачів, щоб поліпшити користувальницький інтерфейс. Щоб дізнатися для чого і які персональні дані ми обробляємо перейдіть за посиланням . Якщо Ви натиснете «Я даю згоду», це означає, що Ви розумієте і приймаєте всі умови, зазначені в цьому Повідомленні про конфіденційність.