Turinys
Atliekant darbus su analizatorius į Python tai rekomenduojama, jei dirbame su dokumentais HTML naudoti standartą XHTML, kadangi pastaroji yra griežtesnė, kai reikia tvarkyti elementų atidarymo ir uždarymo žymas, todėl galime lengviau sukurti programas, kurios gali tai interpretuoti.In Python mes turime HTMLParser, to nereikėtų painioti su to paties modulio pavadinimo klase htmllib, kadangi pirmoji yra standartinės bibliotekos dalis, kai gauname dokumentą iš Sutvarkytas galime naudoti HMTLParser kad galėtumėte naršyti jo turinį.
Naudojant HTMLParser
Naudoti HTMLParser, tai iš tikrųjų reiškia subklasifikavimą, kad galėtume perrašyti metodus mums patogiu metu ir taip patenkinti savo reikalavimus, toliau pateikiame pagrindinių metodų, kuriuos gauname naudodami sąrašą, sąrašą HTMLParser.
- handle_starttag (žyma, attrs): Kai randama pradžios žyma, attrs yra porų seka (vardas, vertė).
- handle_startendtag (žyma, attrs): Naudojamas tuščioms etiketėms. Pagal numatytuosius nustatymus jis paleidžia ir išjungia atskirai.
- handle_endtag (žyma): Naudojamas, kai randama uždarymo žyma.
- rankenos duomenys (duomenys): Jis naudojamas, kai randame tekstinius duomenis.
- rankena_charrefas (nuoroda): Jis naudojamas dirbant su & # ref; formos simbolių nuorodomis.
- handle_entityref (vardas): Mes jį naudojame, kai turime nuorodas į & name; formos subjektus.
- rankenos_kommentas (duomenys): Skambinama tik tada, kai yra komentuojamo turinio.
- handle_decl (decl): Jis naudojamas formos deklaracijoms.
- rankena_pi (duomenys): Jis naudojamas instrukcijoms apdoroti.
DIDELIS
Pirmas dalykas, kurį pastebime, yra tai Ekrano įbrėžimas mes nesiruošiame naudoti SutvarkytasTaip yra todėl, kad HTML, kurį ketiname patikrinti, nėra blogai suformuotas, tada matome, kad pirmas dalykas, kurį deklaruojame, yra kai kurie loginiai kintamieji, su kuriais mes valdysime, ar esame elemento viduje H4 arba nuorodos elemente ar nuorodoje.Mes turime kažką ypač su metodu handle_dataKadangi esame realaus gyvenimo aplinkoje, turime pasiruošti sudėtingiausiems scenarijams ir tuo turime omenyje, kad beveik neabejotina, jog pirmojo skambučio metu negausime reikiamos informacijos, todėl paruošiame šį metodą, kad galėtume ją gauti dalimis, kai tik gauname viską, ką galime padaryti, tai sujungiame duomenis.
Mūsų programos veiksmas prasideda, kai mes vadiname metodą maitinti () kuriam perduodame tekstą, kuris yra tinklalapio turinys, kurį gauname taikydami šį metodą urlopenas () ir kai visa tai buvo apdorota, mes pradedame vadinti uždarymo () metodu.
Pagaliau pasiekėme programą Ekrano įbrėžimas lengviau skaitomas nei naudojant įprastas išraiškas ir šiek tiek tvirtesnis tuo aspektu, kad neapsiribojame vien fiksuotomis struktūromis, todėl galime teisingai gauti informaciją.
Tuo mes baigiame savo „HTMLParser“ pamoką, nes matome, kad yra daug būdų, kaip pasiekti šiuos sprendimus, kad gautumėte informaciją iš tinklalapio.Ar jums patiko ir padėjo ši pamoka?Galite apdovanoti autorių paspausdami šį mygtuką, kad suteiktumėte jam teigiamą tašką