Žinant „Googlebot“

Turinys
„Googlebot“ yra robotas, leidžiantis sekti žiniatinklį „Google“, taip pat žinomas kaip „Google“ voras. Tokiu būdu sistema aptinka naujus puslapius, kurie buvo indeksuoti jos duomenų bazėje, kur jie atnaujinami, ir vėl įtraukiamas į „Google“ indeksą.
„Google“ naudoja daugybę kompiuterinės įrangos, kad patikrintų milijardus žiniatinklyje platinamų puslapių. Jis pagrįstas algoritminiu stebėjimo procesu, kai kompiuterinės programos nustato stebimas svetaines, taip pat kiekvienoje svetainėje ieškomų puslapių dažnumą ir skaičių. Procesas prasideda anksčiau sukurtų tinklalapių sąrašu, kuris yra išplėstas, atsižvelgiant į žiniatinklio valdytojų įtrauktų svetainės schemų pateiktus duomenis. „Googlebot“ aptinka kiekvieno apsilankymo svetainėse nuorodas į tas svetaines ir prideda jas prie puslapių, kuriuos reikia tikrinti, sąrašo. Sistema aptinka naujas svetaines, esamų pakeitimus ir pasenusias nuorodas, tada atnaujina „Google“ indeksą.
Kaip „Googlebot“ pasiekia svetainę
Vaizdas išsiųstas„Googlebot“ paprastai nepasiekiate svetainių daugiau nei vieną kartą ir kelias sekundes. Paprastai sistema atsisiunčia tik vieną kiekvieno puslapio egzempliorių, jei tą patį puslapį atsisiunčiate kelis kartus, greičiausiai taip yra dėl to, kad nustojo veikti ir iš naujo paleido tikrinimo programą.
„Googlebot“ platinama keliuose kompiuteriuose, be to, kai kurie vorai paleidžiami iš kompiuterių, esančių netoli jų indeksuojamų svetainių. Gali būti, kad puslapių žurnaluose rodomi apsilankymai iš kelių kompiuterių kaip vartotojo agentas.
Tikslas yra aptikti kuo daugiau puslapių svetainėje kiekvieno apsilankymo metu, nesumažinant serverio pralaidumo.
Sistema randa svetaines per jų puslapiuose esančias nuorodas. Stebėjimo klaidų atveju jas galima pamatyti „Google“ teikiamuose žiniatinklio valdytojo įrankiuose. Jame išvardytos problemos, su kuriomis susiduriama tikrinant svetainę. Patartina reguliariai tikrinti bet kokias tikrinimo klaidas, kad jos būtų atpažintos ir pašalintos.
Kadangi „Googlebot“ valdomi IP adresai kartais keičiasi, idealiausia naudoti robotą „user-agent“ („Googlebot“). „Google“ voras paisys failo robots.txt gairių, tačiau kenkėjiški vartotojai gali jų nesilaikyti.
wave wave wave wave wave