Интерфейс На този раздел можете създавате колкото граници за парсинг искате, които по-късно ще използвате при парсинга на интернет магазин или CSV ценова листа.
Име – име на границата за парсинг.
Текст за начало на парсинга – текстът, от който модулът започва да извлича текст, докато не срещне текста за край на парсинга.
Текст за край на парсинга – текстът, който указва края на извличането в границата за парсинг.
- Парсиране с граници – този настройки позволява да вземете стойността на границата за парсинг заедно с границите. По подразбиране е изключено.
- Пропускане на вхождания – позволява ви да изберете което вхождение да извлечете. Например, на страница с едни и същи граници за парсинг може да има 10 или повече вхождения. По подразбиране модулът взема първото срещнато на страницата.
- Къде да пропуснете – позволява да определите от коя страна да започнете броенето на вхожденията, от началото на страницата или от края.
- Тип на границата за парсинг – определя какъв тип граница за парсинг настоящо настройвате. Има 2 типа.
- Обикновена граница за парсинг
- Повторяема граница за парсинг Повторяема граница за парсинг
За разлика от обикновената граница за парсинг, която събира един къс код, повторяемите граници позволяват да се извлекат няколко данни от страницата. Например, с повторяемите граници можете да извлечете всички допълнителни изображения на продукта, категориите на продукта, атрибутите или друга информация, която се намира в кода в еднакви тагове или части на кода.
Например, ако искате да извлечете всички допълнителни снимки на продукта от кода:
<div class="images">
<div class="image-additional img-thumbnail-transparent photobox">
<a class="thumbnail " href="image/cache/data/led/12/133649844_w640_h640_img_088-800x800-w-30-0-0.jpg" ...>
<img src="image/cache/data/led/12/133649844_w640_h640_img_088-90x90.jpg" .../>
</a>
</div>
<div class="image-additional img-thumbnail-transparent photobox">
<a class="thumbnail " href="image/cache/data/led/12/133649847_w640_h640_img_109-800x800-w-30-0-0.jpg" ...">
<img src="image/cache/data/led/12/133649847_w640_h640_img_109-90x90.jpg" .../>
</a>
</div>
</div>
За да извлечете 133649844_w640_h640_img_088-800×800-w-30-0-0.jpg и 133649847_w640_h640_img_109-800×800-w-30-0-0.jpg, задайте началото на повторяемата граница като <a class=”thumbnail ” href=” и края като “. Тогава ще получите:
133649844_w640_h640_img_088-800×800-w-30-0-0.jpg 133649847_w640_h640_img_109-800×800-w-30-0-0.jpg
Повторяемите граници в рамките на обикновена граница за парсинг
Например, ако трябва да извличате допълнителни снимки на продукта, които се намират между <a class=”thumbnail ” href=” и “. Ако зададете началото на повторяемата граница като <a class=”thumbnail ” href=” и края като “, тогава резултатът от обработката ще включва всички изображения на страницата (защото всички те се съдържат между <a class=”thumbnail ” href=” и “).
За да ограничите търсенето на тези повторяеми граници само в определена част на кода, например в рамките на друга обикновена граница, създайте обикновена граница за парсинг и задайте началото й като <div class=”images”> и края като </div>. Затворете я. След това при създаване на нова граница изберете “Повторяема граница за парсинг” и в полето за област на повторяемата граница за парсинг изберете предварително създадената обикновена граница за парсинг. В моя случай това е “Граница за допълнителни снимки”. В полетата за текст за начало и край на парсинга задайте съответно <a class=”thumbnail ” href=” и “. След това натиснете бутона за предварителен преглед и може да видите как модулът е извлекъл всички снимки. Полето за разделител е необходимо, за да укажете на модула с кой символ да разделите първото вхождение при парсинга от второто.
Също така, при повторяемата граница за парсинг има допълнителни настройки.
- Област на повторение – за нея сме говорили по-горе.
- Разделител – текст, който модулът ще вмъкне между всеки намерен елемент.
- Порядък на извеждане – тази настройка позволява извеждането на всички вхождения в обратен ред, от края към началото.
Дета
йли
Червен блок съдържа само първите 100 връзки. Това е направено, за да не се извеждат всичките 5000 връзки на тази страница. Син блок може да не показва преглед на сайта. Това се дължи на факта, че не всички сайтове позволяват да се зареждат в iframe прозорец. Това не засяга работата на парсера и се отнася само до прегледа преди парсинга.