HyperLink
Bejelentkezés
E-mail: 
Jelszó: 





Skip Navigation Links
 

Robots.txt fájlok készítése


Példaprogram letöltése

2035 bájt

Az Internetes keresőrendszerek a nap 24 órájában pásztázzák a világhálót és a Weboldalak tartalmából egy kivonatot (indexet) készítenek a minél gyorsabb és hatékonyabb keresés érdekében. Ha nem szabályozzuk ténykedésüket, akkor mindet indexelnek, ami csak az útjukba kerül. Ez programok által generált Weboldalak esetében nem mindig szerencsés, arról nem is beszélve, ha privát dokumentumok is meghúzódnak egy normális esetben nem elérhető alkönyvtárban. Megoldás a hatókörük korlátozásában rejlik, hogy hogyan azt az alábbiakban mutatjuk be.

Cikkünkhöz mellékeltünk egy "Robots.txt" fájlt, amit Webhely gyökérkönyvtárában kell elhelyezni. Hatására a keresőprogramok nem indexelik az adott Webhelyet.
A keresőrendszerek Internet pásztázó, indexelő modulját Web Spider-eknek (~Web pók) nevezik. Teljesen automatikusan teszik a dolgukat, bizonyos rendszer szerint pásztázzák a Weboldalakat és az olvasható fájlokból (html, txt, doc, stb.) az adott nyelvezetnek megfelelően a nyelvtanilag lényeges szavakat eltárolják a kereső adatbázisában és innen olvassák ki. Ezért van az, hogy, ha rákeresünk egy szóra, akkor gyakorlatilag azonnal megkapjuk az eredményt, függetlenül attól, hogy a dokumentum Ausztráliában vagy az USA-ban található. Ha a keresés valóban az Interneten zajlana, amikor beírjuk a keresendő kifejezést, akkor órák vagy napok múlva jelennének meg a találatok.
Ami problémát szokott jelenteni, hogy néha a találatok olyan dokumentumokra mutatnak, amit a tulajdonosa bizalmasan kezelt, belső használatra szánt. Elvileg az oldalát látogatók nem férhetnek hozzá, de a kereső leindexeli és megfelelő fájlszintű jogosultság kiosztás hiányában elérhetővé válik. Másik gond, hogy amennyiben az oldalakat egy program generálja és dinamikusan változtatja a tartalmukat, akkor a Web spider "megbolondul" és képtelen elvégezni az indexelést. Ez csak abban az esetben okoz gondot, ha minden egyes látogatás alkalmával más tartalom jelenik meg. Ilyenkor újra és újra elkezdődik az indexelés, ami hibás eredményt hoz, mert legközelebb már úgyis más lesz a tartalom és csak feleslegesen növekszik a hálózati forgalom.
Minkét problémára megoldást jelent a Web spider teljes vagy részleges kitiltása. Erre szolgál a robots.txt fájl, amelyet a Webhely gyökérkönyvtárában kell elhelyezni. A benne lévő bejegyzések vonatkozhatnak egy kereső Web spider-ra, de vonatkozhatnak az összes odalátogatóra. Ennek megfelelően kétféle bejegyzés csoportot különböztetünk meg: globálisat ("User-agent: *") és egyedit ("User-agent: spder_név"). Az egyedi egy konkrét spider-ra vonatkozik a globális pedig mindegyikre. Az engedélyezésre és tiltásra gyakorlatilag egyetlen bejegyzést (Disallow) alkalmazhatunk több példányban.
Példák a robots.txt fájlra:
Az összes Web spider engedélyezése az egész Website-on:
User-agent: *
Disallow:
Az összes Web spider kitiltása az egész Website-ról:
User-agent: *
Disallow:/
Az összes Web spider kitiltása a TEST és PRIVATE alkönyvtárakból:
User-agent: *
Disallow:/test
Disallow:/private
Az XSpider nevű Web spider kitiltása a TEST és PRIVATE alkönyvtárakból és a többi Web spider engedélyezése a teljes site-on:
User-agent: XSpider
Disallow:/test
Disallow:/private
User-agent: *
Disallow:
Az XSpider nevű Web spider engedélyezése a teljes site-on és a többi teljes kitiltása:
User-agent: XSpider
Disallow:
User-agent: *
Disallow:/
Az Internet Information Services (IIS) összes verziója engedélyezi a robots.txt fájl elhelyezését.

Könyv
Ez a cikk megtalálható ebben a könyvben: Windows Software Offline 2002 évkönyv 246. oldal

Felhasználási feltételek
A Software Online szoftverfejlesztői magazin mindegyik cikke, minden megjelent képe, és egyéb publikált anyaga szerzői jog védelme alatt áll! Bármilyen formában történő másodlagos terjesztésük, közzétételük vagy felhasználásuk kizárólag a kiadó előzetes írásbeli engedélyével történhet!

Copyright © 1999-2012 Animare Software Kft. Minden jog fenntartva!
| Készült: Animare Stúdió | Adatvédelem | Kapcsolat |