En hurtig guide til at skrive en Robots.txt-fil

Hvordan konsulterer du en stor lærebog? Sigte gennem indekset. Nå: der er et element, der er den rigtige oversigt over dit websted...

Robots.txt: Programmeringskoder bliver helt sikkert mere og mere sofistikerede
Programmeringskoder er indstillet til at blive stadig mere sofistikerede

Den eneste måde at komme i kontakt med søgemaskinespideren eller crawler, er gennem en fil kaldet robots.txt. Eller bedre. Når du sender dit webstedsforslag til Google, står det over for en simpel kolossal mængde information.

Hvordan konsulterer du en lærebog, der er så stor, at du føler, at du aldrig vil finde alt, hvad du har brug for? Du konsulterer ledetråden. Nå: robots.txt-filen er indekset for dit websted.

Dette er et dokument, der er let at udfylde, og som fortæller søgemaskinecrawleren, hvad den skal kigge efter. Kort sagt: du vil hjælpe ham med at forstå, hvad dit websted er lavet af, så algoritmen kan give dig en rangering, der stemmer overens med det arbejde, du har udført.

Kan nogen skrive en robots.txt-fil?

Det korte svar er ja. Det ærlige svar er nej. Selvom grammatikken i en robots.txt-fil er ekstremt enkel, og dens sammensætning består af et par linjer, er det bedre at stole på omsorgen fra en ekspert webmaster, der ved, hvor han skal sætte sine hænder. Når alt kommer til alt, er en lille fejl nok til at kompromittere placeringen af ​​din hjemmeside, og derfor stopper alle SEO-operationer, før de overhovedet starter.

Inden du starter, skal du vide én ting: alle kan konsultere robots.txt-filen for ethvert websted ved at skrive en /robots.txt efter domænet. Du kan endda konsultere Googles!

Du kan skrive en sådan fil uden at downloade speciel software. Faktisk er det tilstrækkeligt at bruge din notesblok og gemme, gæt hvad, i .txt-format.

Lad os sammen skrive en robots.txt: overskriften

Lad os starte fra begyndelsen, da det altid er logisk at gøre. Åbningen af ​​filen, eller rettere overskriften, er helt dedikeret til navnet på edderkoppen, efterfulgt af en lille formulering, der altid er den samme. Lad os antage, at du ønsker at blive bemærket af Google. Så den første linje vil være:

Brugeragent: Googlebot

Denne meget korte streng fortæller Google, at alt, hvad der følger, helt sikkert vil være af interesse for det. Hvis du ønsker, at alle crawlere, der læser denne type fil, skal kunne konsultere dokumentet, skal du erstatte Googlebot med en simpel *, en stjerne.

Nu hvor du har angivet hvilken edderkop, altså HVEM, skal du angive også HVAD han skal læse.

Hver kodelinje svarer per definition til en handling fra maskinen. Det siger sig selv, at hver kommando i robots.txt-filen svarer til, hvad maskinen ikke skal gøre. Og dette er nøglen, der giver dig mulighed for at skrive en virkelig effektiv. Vi taler om kommandoen DISALLOW.

Hvad er kommandoen DISALLOW?

Il forbyde kommando giver dig mulighed for at begrunde udelukkelse. Med andre ord, når det siges, at det først er at sige, hvad der ikke skal gøres – jamen, så ræsonnerer du med udelukkelse. Ud over disallow er der også tillade, som er undtagelsen fra blokeringen.

Hvis du vil skrive en god robotfil, skal du tænke omvendt, så du bliver nødt til at fortælle Google, hvad den ikke skal læse. Hvis du skriver:

Disallow:

Edderkoppen vil læse hele dit websted, uden nogen bremser.

Hvis du efter “Disallow:” indsætter en skråstreg (derfor Disallow: /), vil siden ikke blive indtastet i søgemaskinerne, punktum.

Disallow: /mapper/

Erstat ordbiblioteket med den mappe, du ønsker at blive nægtet fra edderkopvisning. Du kan gøre det samme med en bestemt fil.

Disallow: /minfil.html

Opmærksomhed til tegnsætning og bogstaver, store eller små bogstaver. Denne type fil holder den slags "småting" højt, men de gør en stor forskel.

Hvorfor ville du stoppe Google i at læse en stor del af dit websted? Når du skriver en fil af denne type, er det vigtigt at forstå, hvilke filer der ikke skal vises på søgemaskinen, men uden at misbruge dem. Du skal dog vide, at enhver, der kender den nøjagtige adresse på den pågældende fil, vil kunne få adgang til den under alle omstændigheder.

Hvad er ALLOW-kommandoen?

I filen kan du tilføje en undtagelse med kommandoen GIVE LOV TIL. Grammatikken er identisk, men den vil skabe nogle undtagelser fra DISALLOW, som vil gøre det muligt at åbne interessante udforskningsmargener for edderkoppen.

En lille eksempelfil:

Brugeragent: Googlebot

Disallow: /images/

Tillad: /images/holidays.jpg

Grundlæggende fortalte vi Googlebot ikke at overveje billedmappen, bortset fra et bestemt billede inde i den, nemlig det fra ferien.

Og det, gutter, er det. Vi skrev vores første robots.txt-fil. Sikker på, hvad vi skal gøre for det faktiske websted kan være lidt anderledes, men ikke meget. Hvis du er i tvivl, så få altid råd fra en specialiseret webmaster. Vi råder dig til at prøve at skrive det selv, først og fremmest, og sende det til ham til en kontrol, så du kan mestre rudimenterne og bedre forstå, hvordan dit websted fungerer.

Hvad er sammenhængen mellem robots.txt og sitemaps?

Sitemap er en fil genereret af specielle plugins, der indeholder alle links på siden. Når edderkoppen kommer ind på webstedet, læser den først robotterne og gennemgår derefter webstedet. Hvis robotten under gennemgangen finder sitemapadressen, vil hele processen være meget nemmere.

Tilføj følgende til ovenstående kode:

Sitemap: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

Afslutningsvis

Alle robotfiler er de samme. Det betyder, at en Robots-fil skrevet til Google også fungerer fint til Bing og følger den samme grammatik.

En velorganiseret robots.txt-fil giver dig mulighed for spare crawler tid. Vær ikke afskrækket: dette er det første skridt mod succes!

Robots.txt: Google er den mest kraftfulde søgemaskine på internettet
Google er den mest kraftfulde søgemaskine på internettet