„Robots.txt“ arba robotų išskyrimo standartas ir paieškos sistemos tikrinimas

Turinys
Sveiki visi, pradedu nuo šios pamokos apie robots.txt, tikiuosi, kad jums patiks

Leisti visiems robotams aplankyti visus failus, kurie saugomi pagrindiniame žiniatinklio kataloge:

 Vartotojo agentas: * Neleisti: 

Neleiskite prieigos prie visų robotų ir visų šakniniame kataloge saugomų failų:
 Vartotojo agentas: * Neleisti: / 

Leiskite pasiekti tik vienam robotui, šiame pavyzdyje tik „Google“ galės tikrinti
 User-agent: googlebot Neleisti: User-agent: * Neleisti: / 

Populiariausi robotai turi pavadinimą, kurį reikia naudoti vartotojo agente
googlebot => „Google“
msnbot => MSN paieška
yahoo-slurp => „Yahoo!
šveitiklis => Šveisti internetą
robozilla => DMOZ tikrintuvas
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Taip pat yra konkretesnių robotų, tokių kaip vaizdai
googlebot-image => „Google“ vaizdas
googlebot-mobile => „Google Mobile“
Kitas pavyzdys, kad visi pakatalogiai, kuriuose yra pakaitos simboliai (/), turi būti užblokuoti, tik šie, išskyrus visus kitus failus ir katalogus, kuriuose nėra pakaitos simbolių, iš esmės yra užblokuoti sistemos ar galinių katalogų:
 User-agent: * Neleisti: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador / 

Neleiskite, kad būtų stebimas konkretus failas
 Vartotojo agentas: * Neleisti: /page.htm 

Tai dažnai naudojama, kai norime pašalinti puslapį, kuriame pateikiama 404 klaida, arba pašalinti puslapį iš paieškos rezultatų, taip užkertant kelią jo tikrinimui.
Valdykite tikrinamų robotų dažnį
Nuo Google analizė ir nuo žiniatinklio įrankiai galite matyti statistiką, taip pat matote, kad kartais kai kuriems robotams užtrunka ilgai peržiūrėti mūsų svetainę ir pateikti užklausas serveriui, robotai sunaudoja pralaidumą ir išteklius, tarsi jie būtų tik dar vienas lankytojas.
Yra būdas, kuriuo robotai nekontroliuoja, mes galime pasakyti kiekvienam
User-agent: googlebot Tikrinimo uždelsimas: 30
Taip informuojame „Google“ robotą, kad tarp kiekvieno nuskaitymo reikia palaukti 30 sekundžių. Būkite atsargūs, nes tikrinimo uždelsimas gali būti nepalaikomas visų paieškos sistemų, „Bing“ ir „Google“.
Oficiali svetainė robots.txt Http://www.robotstxt.org/ rasite visų robotų pavadinimus, kodo specifikacijas. Čia atskleidžiama, kad robotai padeda standartizuoti tuos, kurie turi būti stebimi, ir naudojami kitose platformose, siekiant sekti ir patvirtinti html, patvirtinti nuorodas, indeksuoti informaciją, atnaujinti turinį paieškos sistemose, apsaugoti svetaines.Ar jums patiko ir padėjo ši pamoka?Galite apdovanoti autorių paspausdami šį mygtuką, kad suteiktumėte jam teigiamą tašką

Padėsite svetainės plėtrą, dalintis puslapį su draugais

wave wave wave wave wave