Turinys
The Ekrano įbrėžimas arba ekrano grandymas, leidžia mums išgauti informaciją iš tinklalapio, atsisiųsdami minėtą puslapį ir vėliau jį apdorodami programa; Tai labai naudinga, ypač kai mums reikia atnaujintos informacijos iš svetainės, kurioje jos nėra API prieinama arba kai kurios Interneto paslauga.Norėdami atlikti a Ekrano įbrėžimas, mes tiesiog turime atsisiųsti turinį ir sugebėti juo manipuliuoti, kad galėtume išgauti tai, kas mus domina, tam galime naudoti įvairius metodus, tokius kaip įprastų išraiškų naudojimas, arba galbūt padėti sau su kitomis bibliotekomis, pvz. Sutvarkytas.
Kas yra Tvarkingas?
Kad galėtum skaityti a HTML Turime pasitikėti jos struktūra, nes kadangi tiksliai nežinome, koks jos turinys, bent jau žinome, kad ieškodami struktūrų HTML kažką galime gauti, tačiau ne visada HTML jis yra gerai suformuotas dėl praleidimo klaidos arba dėl to, kad programuotojas žino, kad kai kurios naršyklės linkusios aiškinti HTML, net jei yra tam tikrų trūkumų.
Šiuo metu pradeda veikti Sutvarkytas, kuris yra ne kas kita, kaip įrankis, leidžiantis ištaisyti netinkamai suformuotą HTML, jis yra labai konfigūruojamas ir leidžia mums pritaikyti būdą, kaip jis turėtų interpretuoti galimus pataisymus, tokiu būdu mes tikrai žinosime, kokio tipo dokumentas baigsis.
Pirmiausia pažiūrėkime kodo vaizdą HTML Su daugeliu klaidų šį kodą gali suprasti kai kurios naršyklės, tačiau jis nėra teisingas formuojant:
Kaip matome, kiekviena eilutė praktiškai turi klaidą, dažniausiai yra neuždaromos žymos, tada matome žymas, kurios uždaromos netinkamoje vietoje ir pan.
Tada mes naudojame Sutvarkytas ir pažiūrėkime kodą, kuris jau buvo pataisytas, ten suprasime, kokia svarbi ši biblioteka ir visa pagalba, kurią ji gali mums suteikti:
Nuotraukoje matome, kaip tai buvo ištaisyta Sutvarkytas, turime pastebėti, kad nors „Tidy“ yra didelė biblioteka, ji tikriausiai negali išspręsti visų klaidų HTMLTačiau tai mums labai padeda kuriant gerai suformuotą HTML.
Susitvarkyk
Yra keletas būdų, kaip „Tidy“ gauti oficialiame puslapyje http: / /tidy.sf.net. biblioteką galime gauti, tačiau tame šaltinyje nėra galimybės jos integruoti Python todėl turime pasinaudoti alternatyviu šaltiniu, nes tam turime dvi galimybes: uTvarkinga galima rasti adresu http: / /utidylib.berlios.de ir mxTvarkinga galima rasti adresu http://egenix.com/files/python/mxTidy. naudoti.
Pažiūrėkime, kaip naudoti Sutvarkytas Kai mes jį įdiegsime, toliau pateiktame kode mes atidarysime HTML su klaidomis ir perskaitysime ją naudodami „Tidy“, tada ekrane parodysime informaciją.
iš subproceso importo Popen, PIPE text = open ('netvarkingas.html'). read () tidy = Popen ('tvarkingas', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) tvarkingas. stdin.close () spausdinti tidy.stdout.read ()
Kaip matome, juo naudotis gana paprasta SutvarkytasKai tik tuo pakankamai pasitikime, gerai žinodami bibliotekos elgesį, galime pasiekti labai įdomių dalykų.Ar jums patiko ir padėjo ši pamoka?Galite apdovanoti autorių paspausdami šį mygtuką, kad suteiktumėte jam teigiamą tašką