Voorbeeld van robots.txt lêers vir jou webwerf

'N robots.txt-lêer wat in die wortel van jou webwerf gestoor word, sal webrobotte soos soekenjins vertel wat katalogusse en lêers hulle mag kruip. Dit is maklik om 'n robots.txt-lêer te gebruik, maar daar is 'n paar dinge wat jy moet onthou:

  1. Swart hoed web robots sal jou robots.txt lêer ignoreer. Die mees algemene tipes is malware bots en robots soek na e-pos adresse om te oes.
  2. Sommige nuwe programmeerders sal robotte skryf wat die robots.txt-lêer ignoreer. Dit word gewoonlik per ongeluk gedoen.
  1. Enigeen kan jou robots.txt-lêer sien. Hulle word altyd genaamd robots.txt en word altyd aan die wortel van die webwerf gestoor.
  2. Ten slotte, as iemand na 'n lêer of gids skakel wat deur jou robots.txt-lêer uitgesluit word vanaf 'n bladsy wat nie deur hul robots.txt-lêer uitgesluit word nie, kan die soekenjins dit in elk geval vind.

Moenie robots.txt-lêers gebruik om iets belangrik te verberg nie. In plaas daarvan moet jy belangrike inligting agter veilige wagwoorde plaas of dit geheel en al van die web aflaat.

Hoe om hierdie voorbeeldlêers te gebruik

Kopieer die teks van die monster wat die naaste aan wat jy wil doen, en plak dit in jou robots.txt-lêer. Verander die robot-, gids- en lêernaam om ooreen te kom met jou voorkeurkonfigurasie.

Twee Basiese Robots.txt lêers

Gebruiker-agent: *
Onthou: /

Hierdie lêer sê dat 'n robot (Gebruiker-agent: *) wat toegang tot die program moet ignoreer elke bladsy op die werf (Disallow: /).

Gebruiker-agent: *
Disallow:

Hierdie lêer sê dat enige robot (Gebruiker-agent: *) wat toegang het tot dit toegelaat word om elke bladsy op die werf te sien (Disallow:).

U kan dit ook doen deur u robots.txt-lêer leeg te laat of om glad nie een op u werf te hê nie.

Beskerm spesifieke gidse vanaf robots

Gebruiker-agent: *
Onthou: / cgi-bin /
Onthou: / temp /

Hierdie lêer sê dat enige robot (Gebruiker-agent: *) wat toegang het tot die gidse / cgi-bin / en / temp / (Disallow: / cgi-bin / Disallow: / temp /) moet ignoreer.

Beskerm spesifieke bladsye van robots

Gebruiker-agent: *
Onthou: /jenns-stuff.htm
Onthou: /private.php

Hierdie lêer sê dat enige robot (Gebruiker-agent: *) wat toegang tot die lêer /jenns-stuff.htm en /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php) moet ignoreer.

Verhoed dat 'n spesifieke robot toegang tot jou webwerf kry

Gebruiker-agent: Lycos / xx
Onthou: /

Hierdie lêer sê dat die Lycos bot (Gebruiker-agent: Lycos / xx) nie toegang tot enige plek op die webwerf is nie (Disallow: /).

Laat net een spesifieke robot toegang toe

Gebruiker-agent: *
Onthou: /
Gebruiker-agent: Googlebot
Disallow:

Hierdie lêer ontken eers alle robots soos ons hierbo gedoen het en laat die Googlebot (Gebruiker-agent: Googlebot) uitdruklik toegang tot alles (Disallow:).

Kombineer veelvuldige lyne om presies die uitsluitings wat jy wil hê, te kry

Alhoewel dit beter is om 'n baie inklusiewe gebruiker-agentlyn te gebruik, soos Gebruiker-agent: *, kan jy so spesifiek wees as jy wil. Onthou dat robots die lêer in volgorde lees. So as die eerste lyne sê dat alle robotte van alles geblokkeer word, en dan later in die lêer word gesê dat alle robots toegang tot alles het, sal die robots toegang tot alles hê.

As jy nie seker is of jy jou robots.txt-lêer korrek geskryf het nie, kan jy Google se Webmaster Tools gebruik om jou robots.txt-lêer te kontroleer of 'n nuwe een te skryf.