Het robots.txt bestand is een eenvoudig tekstbestand dat zich in de hoofdmap van een website bevindt (bijvoorbeeld: www.example.com/robots.txt) en fungeert als communicatiemiddel tussen website-eigenaren en webcrawlers van zoekmachines. Dit bestand maakt gebruik van het Robots Exclusion Protocol, een standaard die in 1994 werd geïntroduceerd.
Het primaire doel van robots.txt is om zoekmachine-bots (ook wel spiders of crawlers genoemd) te instrueren welke delen van een website zij wel of niet mogen bezoeken en indexeren. Hoewel het bestand geen juridisch bindend document is, respecteren de meeste betrouwbare zoekmachines zoals Google, Bing en Yahoo de instructies die erin staan.
Hoe werkt robots.txt?
Wanneer een zoekmachine-bot een website wil crawlen, controleert deze eerst of er een robots.txt bestand aanwezig is. Het bestand bevat regels die specifieke user-agents (bots) vertellen welke URL's of directories zij kunnen benaderen. De belangrijkste componenten zijn:
- User-agent: Specificeert voor welke bot de regel geldt (bijvoorbeeld Googlebot, Bingbot, of * voor alle bots)
- Disallow: Geeft aan welke pagina's of mappen niet gecrawld mogen worden
- Allow: Staat specifieke pagina's toe binnen een anders geblokkeerde directory
- Sitemap: Verwijst naar de locatie van de XML-sitemap
- Crawl-delay: Bepaalt de wachttijd tussen crawl-verzoeken
Structuur en syntax
Een robots.txt bestand volgt een eenvoudige syntax. Hier is een voorbeeld:
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml
In dit voorbeeld worden alle bots geïnstrueerd om de /admin/ en /private/ mappen te vermijden, maar wordt de /public/ map wel toegestaan. Daarnaast wordt de locatie van de sitemap aangegeven.
Beperkingen
Het is belangrijk om te begrijpen dat robots.txt geen beveiligingsmechanisme is. Kwaadwillende bots kunnen de instructies negeren, en de inhoud van het bestand is publiekelijk zichtbaar. Voor daadwerkelijke beveiliging van gevoelige content moet je authenticatie, wachtwoorden of andere beveiligingsmaatregelen implementeren.
