robots.txt

robots-bestand, robots tekstbestand, robot exclusion protocol, robots exclusion standard, web robots bestand, crawler bestand, bot bestand
Een robots.txt bestand is een tekstbestand in de hoofdmap van een website dat zoekmachines instrueert welke pagina's wel of niet geïndexeerd mogen worden.

Wat is robots.txt?

Het robots.txt bestand is een eenvoudig tekstbestand dat zich in de hoofdmap van een website bevindt (bijvoorbeeld: www.example.com/robots.txt) en fungeert als communicatiemiddel tussen website-eigenaren en webcrawlers van zoekmachines. Dit bestand maakt gebruik van het Robots Exclusion Protocol, een standaard die in 1994 werd geïntroduceerd.

Het primaire doel van robots.txt is om zoekmachine-bots (ook wel spiders of crawlers genoemd) te instrueren welke delen van een website zij wel of niet mogen bezoeken en indexeren. Hoewel het bestand geen juridisch bindend document is, respecteren de meeste betrouwbare zoekmachines zoals Google, Bing en Yahoo de instructies die erin staan.

Hoe werkt robots.txt?

Wanneer een zoekmachine-bot een website wil crawlen, controleert deze eerst of er een robots.txt bestand aanwezig is. Het bestand bevat regels die specifieke user-agents (bots) vertellen welke URL's of directories zij kunnen benaderen. De belangrijkste componenten zijn:

  • User-agent: Specificeert voor welke bot de regel geldt (bijvoorbeeld Googlebot, Bingbot, of * voor alle bots)
  • Disallow: Geeft aan welke pagina's of mappen niet gecrawld mogen worden
  • Allow: Staat specifieke pagina's toe binnen een anders geblokkeerde directory
  • Sitemap: Verwijst naar de locatie van de XML-sitemap
  • Crawl-delay: Bepaalt de wachttijd tussen crawl-verzoeken

Structuur en syntax

Een robots.txt bestand volgt een eenvoudige syntax. Hier is een voorbeeld:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml

In dit voorbeeld worden alle bots geïnstrueerd om de /admin/ en /private/ mappen te vermijden, maar wordt de /public/ map wel toegestaan. Daarnaast wordt de locatie van de sitemap aangegeven.

Beperkingen

Het is belangrijk om te begrijpen dat robots.txt geen beveiligingsmechanisme is. Kwaadwillende bots kunnen de instructies negeren, en de inhoud van het bestand is publiekelijk zichtbaar. Voor daadwerkelijke beveiliging van gevoelige content moet je authenticatie, wachtwoorden of andere beveiligingsmaatregelen implementeren.

Toepassingen

Crawlbudget optimalisatie

Zoekmachines besteden een beperkte hoeveelheid tijd en resources aan het crawlen van elke website. Door robots.txt strategisch in te zetten, kun je ervoor zorgen dat crawlers zich focussen op de belangrijkste pagina's van je website. Dit is vooral relevant voor grote websites met duizenden pagina's.

  • Blokkeer duplicate content of gefilterde pagina's
  • Sluit bedankpagina's en interne zoekresultaten uit
  • Voorkom het crawlen van staging- of ontwikkelomgevingen
  • Beperk toegang tot resource-intensieve delen van de website

Bescherming van gevoelige content

Hoewel robots.txt geen echte beveiligingsmaatregel is, kan het helpen om onbedoelde indexering van bepaalde pagina's te voorkomen:

  • Administratiepanelen en login-pagina's
  • Interne documenten of PDF-bestanden die niet publiekelijk gedeeld moeten worden
  • Testpagina's of beta-functionaliteit
  • Shopping cart en checkout-pagina's in e-commerce

SEO-strategie implementatie

Robots.txt speelt een belangrijke rol in technische SEO-strategieën:

  • Voorkomen van duplicate content: Blokkeer parametrized URLs of sessie-ID's die duplicate content creëren
  • Faceted navigation beheren: In e-commerce websites kun je gefilterde categorieën uitsluiten
  • Sitemap promotie: Verwijs naar je XML-sitemap voor efficiëntere indexering
  • Internationale SEO: Stuur bots naar de juiste taalversies van je website

Resource management

Bescherm je serverresources door toegang tot bepaalde bestandstypes of mappen te beperken:

  • Blokkeer crawling van afbeeldingen, CSS of JavaScript-bestanden indien gewenst
  • Voorkom overmatige belasting door agressieve crawlers
  • Implementeer crawl-delay voor specifieke bots die te veel resources consumeren

Staging en ontwikkeling

Voor websites in ontwikkeling of staging-omgevingen:

  • Voorkom premature indexering van niet-afgeronde websites
  • Blokkeer toegang tot test-subdomeinen
  • Bescherm ontwikkelomgevingen tegen ongewenste crawling

E-commerce specifieke toepassingen

Voor webshops zijn er specifieke use cases:

  • Blokkeer interne zoekresultaatpagina's
  • Sluit winkelwagenpagina's en checkout-flow uit
  • Voorkom indexering van gefilterde productoverzichten
  • Bescherm klantaccountpagina's

Veelgestelde vragen

Robots.txt en noindex zijn beide methoden om zoekmachines te instrueren, maar werken fundamenteel anders:

  • Robots.txt: Voorkomt dat bots een pagina überhaupt bezoeken en crawlen. De pagina wordt niet gecrawld, maar kan theoretisch nog steeds in zoekresultaten verschijnen als er externe links naar wijzen.
  • Noindex: Laat bots de pagina wel crawlen, maar instrueert hen om de pagina niet op te nemen in de zoekindex. Dit wordt geïmplementeerd via een meta tag of HTTP-header op de pagina zelf.

Voor pagina's die je volledig uit zoekresultaten wilt houden, is noindex de betere keuze. Gebruik robots.txt vooral voor crawlbudget-optimalisatie en het beschermen van serverresources.

Nee, robots.txt biedt geen bescherming tegen het kopiëren van content. Het bestand is een vriendelijk verzoek aan zoekmachine-bots, geen beveiligingsmechanisme. Belangrijke punten om te begrijpen:

  • Kwaadwillende bots en scrapers negeren robots.txt volledig
  • Het bestand is publiekelijk toegankelijk, waardoor iedereen kan zien welke delen je probeert te verbergen
  • Zelfs geblokkeerde pagina's blijven gewoon toegankelijk via een webbrowser

Voor daadwerkelijke beveiliging moet je gebruikmaken van authenticatie, wachtwoordbeveiliging, IP-whitelisting, of juridische maatregelen zoals copyright en gebruiksvoorwaarden.

Er zijn verschillende manieren om je robots.txt bestand te testen:

  • Google Search Console: Gebruik de robots.txt Tester tool onder 'Crawlen'. Hier kun je specifieke URL's testen en zien of ze geblokkeerd of toegestaan zijn voor verschillende user-agents.
  • Bing Webmaster Tools: Biedt ook een robots.txt analyzer voor het testen van je bestand.
  • Handmatig controleren: Ga naar jouwdomein.nl/robots.txt in je browser om te verifiëren dat het bestand correct wordt weergegeven.
  • Syntax validators: Gebruik online tools die de syntax van je robots.txt controleren op fouten.

Let op veelvoorkomende fouten zoals typefouten in user-agent namen, verkeerde gebruik van wildcards (*), of het per ongeluk blokkeren van belangrijke pagina's. Test altijd na wijzigingen of je belangrijkste pagina's nog steeds gecrawld kunnen worden.

Auteur & updates

Auteur: Wouter
Publicatiedatum: 16-02-2026
Laatste update: 16-02-2026