
Cikkünkhöz mellékeltünk egy "Robots.txt" fájlt, amit Webhely gyökérkönyvtárában kell elhelyezni. Hatására a keresőprogramok nem indexelik az adott Webhelyet.
A keresőrendszerek Internet pásztázó, indexelő modulját Web Spider-eknek (~Web pók) nevezik. Teljesen automatikusan teszik a dolgukat, bizonyos rendszer szerint pásztázzák a Weboldalakat és az olvasható fájlokból (html, txt, doc, stb.) az adott nyelvezetnek megfelelően a nyelvtanilag lényeges szavakat eltárolják a kereső adatbázisában és innen olvassák ki. Ezért van az, hogy, ha rákeresünk egy szóra, akkor gyakorlatilag azonnal megkapjuk az eredményt, függetlenül attól, hogy a dokumentum Ausztráliában vagy az USA-ban található. Ha a keresés valóban az Interneten zajlana, amikor beírjuk a keresendő kifejezést, akkor órák vagy napok múlva jelennének meg a találatok.
Ami problémát szokott jelenteni, hogy néha a találatok olyan dokumentumokra mutatnak, amit a tulajdonosa bizalmasan kezelt, belső használatra szánt. Elvileg az oldalát látogatók nem férhetnek hozzá, de a kereső leindexeli és megfelelő fájlszintű jogosultság kiosztás hiányában elérhetővé válik. Másik gond, hogy amennyiben az oldalakat egy program generálja és dinamikusan változtatja a tartalmukat, akkor a Web spider "megbolondul" és képtelen elvégezni az indexelést. Ez csak abban az esetben okoz gondot, ha minden egyes látogatás alkalmával más tartalom jelenik meg. Ilyenkor újra és újra elkezdődik az indexelés, ami hibás eredményt hoz, mert legközelebb már úgyis más lesz a tartalom és csak feleslegesen növekszik a hálózati forgalom.
Minkét problémára megoldást jelent a Web spider teljes vagy részleges kitiltása. Erre szolgál a robots.txt fájl, amelyet a Webhely gyökérkönyvtárában kell elhelyezni. A benne lévő bejegyzések vonatkozhatnak egy kereső Web spider-ra, de vonatkozhatnak az összes odalátogatóra. Ennek megfelelően kétféle bejegyzés csoportot különböztetünk meg: globálisat ("User-agent: *") és egyedit ("User-agent: spder_név"). Az egyedi egy konkrét spider-ra vonatkozik a globális pedig mindegyikre. Az engedélyezésre és tiltásra gyakorlatilag egyetlen bejegyzést (Disallow) alkalmazhatunk több példányban.
Példák a robots.txt fájlra:
Az összes Web spider engedélyezése az egész Website-on:
Az összes Web spider kitiltása az egész Website-ról:
Az összes Web spider kitiltása a TEST és PRIVATE alkönyvtárakból:
User-agent: *
Disallow:/test
Disallow:/private
Az XSpider nevű Web spider kitiltása a TEST és PRIVATE alkönyvtárakból és a többi Web spider engedélyezése a teljes site-on:
User-agent: XSpider
Disallow:/test
Disallow:/private
User-agent: *
Disallow:
Az XSpider nevű Web spider engedélyezése a teljes site-on és a többi teljes kitiltása:
User-agent: XSpider
Disallow:
User-agent: *
Disallow:/
Az Internet Information Services (IIS) összes verziója engedélyezi a robots.txt fájl elhelyezését.