Парсинг на сложни данни ( част 2 от парсинга)

Разберете, ще обясня термините и понятията, свързани с парсинга на данни, и след това ще преведа целия текст.

  1. Парсинг на данни: Това е процесът, при който се извлича информация от уебсайтове или други източници на данни и се преобразува в структуриран формат, който после може да бъде анализиран или използван за различни цели.
  2. Категории: Категориите са групиране или класификации на продукти или данни. Например, за онлайн магазин, категориите могат да бъдат “Облекло,” “Обувки,” “Аксесоари” и други.
  3. Фото на продукт: Това са снимки, свързани с определен продукт или обект. В текста се обяснява как се обработват и разделят множество фотографии.
  4. Атрибути: Атрибутите са характеристики или свойства на продукти или обекти. Примери за атрибути могат да бъдат “Размер,” “Цвят,” “Материал” и др.
  5. Опции: Опциите са допълнителни параметри или настройки, които могат да се приложат към продукти или услуги. В текста се споменава, че те са интересна част от парсинга и се изисква специално ръководство за тях.
  6. {csvnc}: Този термин се използва като разделител между различни стойности или данни в текста. Служи за разделяне на информация и улеснява създаването на структурирани данни.
  7. Повторящи се граници на парсинга: Това са специални маркери или символи, които се използват, за да се определи началото и края на определен фрагмент от данни, който се желае да се извлече. В текста се съветва да се използва явно указване на разделителя {csvnc} при настройката на парсера.

Сега ще преведа целия текст с обясненията:

“Парсинг на сложни данни не е толкова сложен, и сега ще опитам да обясня защо 🙂

Както вече знаете от първата част на Парсинга в Интернет магазин (ИМ), сложни данни включват:

  • Категории
  • Снимки на продуктите
  • Атрибути
  • Опции

Тъй като пътят към категориите съдържа няколко стойности и тях не може да се посочи в един текст, тук е необходимо малко повече логика.

Категории Представете си, че искаме да определим, че продуктът трябва да бъде в следните категории:

  1. Облекло
  2. Женско
  3. Панталони

Това означава поне три стойности вместо една. За да определим категориите, те трябва да бъдат записани в определен формат, а именно: “Облекло{csvnc}Женско{csvnc}Панталони”

Чрез оператора {csvnc} указвате на модула, че първата част от данните завърши и започва втората. И така нататък.

 

Сега модулът може да разбере колко категории има и коядо следва след коя и да постави продукта на правилното място.

Снимки на продуктите Както разбрахте от примера с категориите, за да отделите една стойност от друга, просто поставяте {csvnc} между тях.

Пример: https://svetavto.com.ua/image/cache/data/led/0_led_diod_solu/21250/133632981_w640_h640_img_125_result-800×800-w-30-0-0.jpg{csvnc}}https://svetavto.com.ua/image/cache/data/led/0_led_diod_solu/21250/133632990_w640_h640_img_127_result-800×800-w-30-0-0.jpg{csvnc}https://svetavto.com.ua/image/cache/data/led/0_led_diod_solu/21250/133632992_w640_h640_img_139_result-800×800-w-30-0-0.jpg

Ако имате само една снимка, тя става основната за продукта. Ако имате повече от една, първата става основната, а останалите се записват като допълнителни.

Атрибути За да модулът правилно създаде атрибут и да му присвои стойност, трябва да преобразувате данните за парсинг на атрибутите в следния формат: “Име на атрибута{csvnc}Стойност на атрибута{csvnc}Име на атрибута{csvnc}Стойност на атрибута{csvnc}Име на атрибута{csvnc}Стойност на атрибута”

Всичко е доста просто.

Опции Опциите са интересна част и има отделно ръководство за тях. Парсинг на опции става, когато цената на опцията е равна на цената на продукта.

Как да извлечете текста между границите с {csvnc}: Можете да преобразувате данните в желания формат чрез замяна на текста с {csvnc} на местата, където е необходимо или чрез използване на повтарящи се граници на парсинга. Обаче обърнете внимание, че между повтарящите се граници по подразбиране се вмъква разделител {csvnc}.

Сега ще покажа няколко примера, как може да се извлече желаният текст чрез замяна:

22 parsing na slojni danni - Парсинг на сложни данни ( част 2 от парсинга)

Пример за парсинг на снимки на продукт:

При парсинг в Интернет магазина, ако използвате повтарящи се граници на парсинга, не е важно какъв разделител изберете, модулът по подразбиране ще използва {csvnc}. Това се отнася само до парсинга в ИМ. Затова препоръчвам при настройване на парсера за зареждане в интернет магазина, да посочите вашия собствен разделител {csvnc}, за да избегнете бъдещи затруднения с резултата.

Въпреки това, аз силно препоръчвам, когато настройвате такава граница на парсинг, да я посочите сами!

22 parsing na atirbuti - Парсинг на сложни данни ( част 2 от парсинга)

Пример за парсинг на атрибути: В този случай се вижда, че ни е подаден фрагмент от код от източника и правим няколко замени. Но едно правило се изпъква от списъка, то е това правило, което добавя {csvnc} към кода, за да получим желания формат на изхода.

Надявам се, че това разясни смисъла на текста. Ако имате още въпроси или се нуждаете от допълнителни обяснения, не се колебайте да ги зададете.

22 primerni zameni - Парсинг на сложни данни ( част 2 от парсинга)