Skip to main content

Prøv robots.txt-filer til dit websted

Building Tomorrow, Ep. 4: Will EU Copyright Break the Internet? (Juni 2025)

Building Tomorrow, Ep. 4: Will EU Copyright Break the Internet? (Juni 2025)
Anonim

En robots.txt-fil, der er gemt i roden på dit websted, fortæller webrobotter som søgemaskiner, hvilke mapper og filer de må gennemgå. Det er nemt at bruge en robots.txt-fil, men der er nogle ting, du bør huske:

  1. Blackhat web robotter vil ignorere din robots.txt fil. De mest almindelige typer er malware bots og robotter på udkig efter e-mail-adresser til høst.
  2. Nogle nye programmører vil skrive robotter, der ignorerer robots.txt-filen. Dette gøres normalt ved en fejltagelse.
  3. Alle kan se din robots.txt-fil. De kaldes altid robots.txt og gemmes altid i roden af ​​hjemmesiden.
  4. Endelig, hvis nogen linker til en fil eller mappe, der er udelukket af din robots.txt-fil fra en side, der ikke er udelukket af deres robots.txt-fil, kan søgemaskinerne muligvis finde det alligevel.

Brug ikke robots.txt-filer til at skjule noget vigtigt. I stedet skal du lægge vigtige oplysninger bag sikre adgangskoder eller lade det være helt væk fra internettet.

Sådan bruges disse prøvefiler

Kopier teksten fra den stikprøve, der er tættest på, hvad du vil gøre, og indsæt den i din robots.txt-fil. Skift robot, mappe og filnavne, så de passer til din foretrukne konfiguration.

To grundlæggende robotter.txt-filer

Brugeragent: *Tillade: /

Denne fil siger, at enhver robot (

Brugeragent: *), der får adgang til det, bør ignorere hver side på webstedet (

Tillade: /).

Brugeragent: *Disallow:

Denne fil siger, at enhver robot (

Brugeragent: *), der har adgang til det, har lov til at se hver side på webstedet (

Disallow:).

Du kan også gøre dette ved at lade din robots.txt-fil være tom eller slet ikke have et på dit websted.

Beskyt specifikke mapper fra robotter

Brugeragent: *Tillad: / cgi-bin /Disallow: / temp /

Denne fil siger, at enhver robot (

Brugeragent: *) der får adgang til det, bør ignorere mapper / cgi-bin / og / temp / (

Disallow: / cgi-bin / Disallow: / temp /).

Beskyt specifikke sider fra robotter

Brugeragent: *Disallow: /jenns-stuff.htmTillad: /private.php

Denne fil siger, at enhver robot (

Brugeragent: *) der får adgang til det, bør ignorere filerne /jenns-stuff.htm og /private.php (

Tillad: /jenns-stuff.htm Tillad: /private.php).

Forhindre en bestemt robot fra at få adgang til dit websted

Brugeragent: Lycos / x.xTillade: /

Denne fil siger, at Lycos bot (

Brugeragent: Lycos / x.x) er ikke tilladt adgang overalt på webstedet (

Tillade: /).

Tillad kun én specifik robotadgang

Brugeragent: *Tillade: /Brugeragent: GooglebotDisallow:

Denne fil udelukker først alle robotter som vi gjorde ovenfor, og så udtrykker Googlebot (

Brugeragent: Googlebot) har adgang til alt (

Disallow:).

Kombiner flere linjer for at få præcis de eksklusioner, du ønsker

Selv om det er bedre at bruge en meget inkluderende brugeragentlinje, som Brugeragent: *, kan du være så specifik som du vil. Husk at robotter læser filen i rækkefølge. Så hvis de første linjer siger, at alle robotter er blokeret fra alt, og derefter senere i filen står det, at alle robotter får adgang til alt, vil robotterne have adgang til alt.

Hvis du ikke er sikker på, om du har skrevet din robots.txt-fil korrekt, kan du bruge Googles webmasterværktøjer til at tjekke din robots.txt-fil eller skrive en ny.