Kas ir domēna Robots.txt fails?
Tīmekļa Pārziņa Rīki Tīmekļa Vietnes Seo Varonis / / March 19, 2020
Pēdējoreiz atjaunināts

Viena no lielākajām jauno vietņu īpašnieku kļūdām nav viņu robots.txt faila izpētīšana. Kas tas tik un tā ir, kāpēc tas ir tik svarīgi? Mums ir jūsu atbildes.
Ja jums pieder vietne un jums rūp vietnes SEO veselība, jums vajadzētu ļoti labi iepazīties ar sava domēna failu robots.txt. Ticiet vai nē, tas ir satraucoši liels skaits cilvēku, kuri ātri palaiž domēnu, instalē ātru WordPress vietni un nekad neuztraucas neko darīt ar savu robots.txt failu.
Tas ir bīstami. Vāji konfigurēts fails robots.txt faktiski var iznīcināt jūsu vietnes SEO veselību un sabojāt visas iespējamās datplūsmas palielināšanas iespējas.
Kas ir fails Robots.txt?
Robots.txt fails ir precīzi nosaukts, jo tas būtībā ir fails, kurā uzskaitītas tīmekļa robotu (piemēram, meklētājprogrammu robotu) direktīvas par to, kā un ko viņi var pārmeklēt jūsu vietnē. Šis ir tīmekļa standarts, kuru kopš 1994. gada seko vietnes, un visi lielākie tīmekļa roboti ievēro šo standartu.
Fails tiek saglabāts teksta formātā (ar .txt paplašinājumu) jūsu vietnes saknes mapē. Faktiski jūs varat apskatīt jebkuras vietnes robot.txt failu, vienkārši ierakstot domēnu, kam seko /robots.txt. Ja izmēģināt to ar groovyPost, redzēsit labi strukturēta robot.txt faila piemēru.

Fails ir vienkāršs, bet efektīvs. Šis faila piemērs nenošķir robotus. Komandas tiek izsniegtas visiem robotiem, izmantojot Lietotāja aģents: * direktīva. Tas nozīmē, ka visas komandas, kas tai seko, attiecas uz visiem robotiem, kas apmeklē vietni, lai to pārmeklētu.
Tīkla rāpuļprogrammu norādīšana
Jūs varētu arī norādīt īpašus noteikumus konkrētiem tīmekļa rāpuļprogrammām. Piemēram, jūs varētu atļaut Googlebot (Google tīmekļa rāpuļprogrammai) pārmeklēt visus jūsu vietnes rakstus, taču jūs, iespējams, vēlēsities neatļaut krievu tīmekļa kāpurķēdei Yandex Bot pārmeklēt jūsu vietnē rakstus, par kuriem ir nepatīkama informācija par vietni Krievija.
Ir simtiem tīmekļa rāpuļprogrammu, kas meklē informāciju par vietnēm internetā, taču šeit ir uzskaitītas 10 visbiežākās, par kurām jums vajadzētu uztraukties.
- Googlebot: Google meklētājprogramma
- Bingbots: Microsoft meklētājprogramma Bing
- Slurp: Yahoo meklētājprogramma
- DuckDuckBot: Meklētājprogramma DuckDuckGo
- Baiduspider: Ķīniešu Baidu meklētājprogramma
- YandexBot: Krievu Yandex meklētājprogramma
- Exabot: Meklētājprogramma Exalead franču valodā
- Facebot: Facebook pārmeklē robotu
- ia_archiver: Alexa tīmekļa ranga rāpuļprogramma
- MJ12bot: Liela saišu indeksācijas datu bāze
Ņemot iepriekš minēto scenārija piemēru, ja vēlējāties ļaut Googlebot indeksēt visu jūsu vietnē, bet vēlējāties neļaujot Yandex indeksēt jūsu krievu valodas saturu, jūs savam robots.txt pievienotu šādas rindas: failu.
Lietotāja aģents: googlebot
Neatļaut: Neatļaut: / wp-admin /
Neatļaut: /wp-login.php
Lietotāja aģents: yandexbot
Neatļaut: Neatļaut: / wp-admin /
Neatļaut: /wp-login.php
Neatļaut: / krievija /
Kā redzat, pirmā sadaļa tikai bloķē Google pārmeklēt jūsu WordPress pieteikšanās lapu un administratīvās lapas. Otrā sadaļa bloķē Yandex ne tikai no tā, bet arī no visa jūsu vietnes apgabala, kurā esat publicējis rakstus ar anti-Krievijas saturu.
Šis ir vienkāršs piemērs, kā izmantot Neatļaut komanda, lai kontrolētu noteiktus tīmekļa rāpuļprogrammas, kas apmeklē jūsu vietni.
Citas Robots.txt komandas
Neatļaut nav vienīgā komanda, kurai esat piekļuvis failā robots.txt. Varat arī izmantot jebkuru citu komandu, kas norādīs, kā robots var pārmeklēt jūsu vietni.
- Neatļaut: Pasaka lietotāja aģentam, lai izvairītos no noteiktu URL vai visu jūsu vietnes sadaļu pārmeklēšanas.
- Atļaut: Ļauj precizēt noteiktas vietnes lapas vai apakšmapes, pat ja jūs, iespējams, esat atļāvis vecāku mapi. Piemēram, jūs varat neļaut: / about /, bet pēc tam atļaut: / about / ryan /.
- Pārmeklēšana - kavēšanās: Tas rāpuļprogrammai liek nogaidīt xx sekunžu skaitu pirms vietnes rāpuļprogrammas sākšanas.
- Vietnes karte: Nodrošiniet meklētājprogrammām (Google, Ask, Bing un Yahoo) savu XML vietņu karšu atrašanās vietu.
Paturiet prātā, ka roboti būs tikai klausieties komandas, kuras esat sniedzis, kad norādāt robotprogrammatūras vārdu.
Bieži pieļauta kļūda, kas tiek pieļauta, aizliedzot tādus apgabalus kā / wp-admin / no visiem robotiem, bet pēc tam norādiet sadaļu googlebot un tikai citu apgabalu (piemēram, / par /) aizliegšanu.
Tā kā robotprogrammatūras seko tikai tām komandām, kuras jūs norādāt to sadaļā, jums ir jāpārskata visas citas komandas, kuras esat norādījis visiem robotprogrammatūrām (izmantojot * user-agent).
- Neatļaut: Komanda, ko izmanto, lai norādītu lietotāja aģentam nepārmeklēt noteiktu URL. Katrā URL ir atļauta tikai viena rindiņa “Neatļaut:”.
- Atļaut (attiecas tikai uz Googlebot): Komanda, kas informē Googlebot, ka tai var piekļūt lapai vai apakšmapei, pat ja tās vecumlapa vai apakšmape var tikt aizliegta.
- Pārmeklēšana - kavēšanās: Cik sekundes rāpuļprogrammai jāgaida, pirms tiek ielādēts un pārmeklēts lapas saturs. Ņemiet vērā, ka Googlebot neatzīst šo komandu, bet rāpuļprogrammas ātrumu var iestatīt Google meklēšanas konsolē.
- Vietnes karte: Izmanto, lai izsauktu ar šo URL saistītās XML vietnes kartes (-u) atrašanās vietu. Ņemiet vērā, ka šo komandu atbalsta tikai Google, Ask, Bing un Yahoo.
Ņemiet vērā, ka robots.txt ir paredzēts, lai palīdzētu likumīgiem robotprogrammatūras (piemēram, meklētājprogrammu robotprogrammatūras) efektīvāk pārmeklēt jūsu vietni.
Ir daudz nožēlojamu rāpuļprogrammu, kas pārmeklē jūsu vietni, lai veiktu, piemēram, nokasītu e-pasta adreses vai nozagtu jūsu saturu. Neuztraucieties, ja vēlaties izmēģināt un izmantot failu robots.txt, lai šie rāpuļprogrammas neļautu kaut ko pārmeklēt jūsu vietnē. Šo rāpuļprogrammu veidotāji parasti ignorē visu, ko esat ievietojis failā robots.txt.
Kāpēc kaut ko neatļaut?
Lielākā vietņu īpašnieku galvenā problēma ir panākt, lai Google meklētājprogramma pārmeklētu pēc iespējas vairāk kvalitatīva satura jūsu vietnē.
Tomēr Google tērē tikai ierobežotu summu pārmeklēt budžetu un pārmeklēšanas ātrums atsevišķās vietnēs. Pārmeklēšanas ātrums ir atkarīgs no tā, cik pieprasījumus sekundē Googlebot jūsu vietnei sniegs pārmeklēšanas notikuma laikā.
Svarīgāks ir rāpuļprogrammas budžets, kas ir, cik daudz kopējo pieprasījumu Googlebot veiks, lai pārmeklētu jūsu vietni vienā sesijā. Google “tērē” pārmeklēšanas budžetu, koncentrējoties uz jūsu vietnes jomām, kas ir ļoti populāras vai nesen mainījušās.
Šī informācija jums nav akla. Ja jūs apmeklējat Google tīmekļa pārziņa rīki, varat redzēt, kā rāpuļprogramma apstrādā jūsu vietni.

Kā redzat, kāpurķēžu darbība jūsu vietnē katru dienu notiek diezgan nemainīgi. Tas nepārmeklē visas vietnes, bet tikai tās, kuras tā uzskata par vissvarīgākajām.
Kāpēc atstāt Googlebot ziņā, kas izlemj, kas ir svarīgi jūsu vietnē, kad robots.txt failu varat izmantot, lai pateiktu, kas ir vissvarīgākās lapas? Tas neļaus Googlebot tērēt laiku mazvērtīgām jūsu vietnes lapām.
Pārmeklēšanas budžeta optimizēšana
Google tīmekļa pārziņa rīki arī ļauj jums pārbaudīt, vai Googlebot nolasa jūsu robots.txt failu un vai tajā nav kļūdu.

Tas palīdz jums pārbaudīt, vai robots.txt fails ir pareizi strukturēts.
Kādas lapas jums vajadzētu aizliegt no Googlebot? Jūsu vietnes SEO ir ieteicams aizliegt šādu kategoriju lapas.
- Dublikātu lapas (piemēram, drukāšanai piemērotas lapas)
- Paldies lapām, kas seko pēc veidlapām balstītiem pasūtījumiem
- Pasūtījuma vai informācijas vaicājuma veidlapas
- Kontaktu lapas
- Pieteikšanās lapas
- Svina magnēta “pārdošanas” lapas
Neignorējiet savu failu Robots.txt
Lielākā kļūda, ko pieļauj jauni vietņu īpašnieki, nekad pat neskatās savu failu robots.txt. Sliktākā situācija varētu būt tāda, ka fails robots.txt faktiski bloķē jūsu vietnes vai vietnes teritoriju vispārēju pārmeklēšanu.
Pārbaudiet savu failu robots.txt un pārliecinieties, ka tas ir optimizēts. Tādā veidā Google un citas svarīgas meklētājprogrammas “redz” visas pasakainās lietas, ko piedāvājat pasaulei ar savu vietni.