Tokens zijn de fundamentele eenheden waarin AI-taalmodellen zoals GPT, Claude en andere Large Language Models (LLMs) tekst opdelen en verwerken. Een token kan een compleet woord zijn, maar ook een deel van een woord, een leesteken, of zelfs een spatie. Het proces waarbij tekst wordt opgedeeld in tokens heet tokenisatie.
Voor AI-modellen is het concept van tokens cruciaal omdat ze niet werken met complete woorden zoals mensen dat doen. In plaats daarvan converteren ze tekst naar numerieke representaties van tokens, die vervolgens door het neurale netwerk worden verwerkt. Dit maakt het mogelijk om efficiënt patronen te herkennen en nieuwe tekst te genereren.
Hoe werkt tokenisatie?
Bij tokenisatie wordt tekst opgedeeld volgens specifieke regels die per AI-model kunnen verschillen. Veelgebruikte woorden worden vaak als één token behandeld, terwijl zeldzamere of langere woorden in meerdere tokens kunnen worden opgesplitst. Bijvoorbeeld:
- Het woord "huis" is meestal 1 token
- Het woord "automatisering" kan 2-3 tokens zijn
- Een spatie en leestekens tellen ook als tokens
- In het Engels is "running" vaak 2 tokens: "run" + "ning"
Waarom zijn tokens belangrijk?
Tokens bepalen de kosten en beperkingen van AI-gebruik op meerdere manieren:
- Kosten: De meeste AI-diensten rekenen per token, zowel voor input (prompt) als output (gegenereerde tekst)
- Context window: Elk AI-model heeft een maximaal aantal tokens dat het tegelijk kan verwerken (bijvoorbeeld 4.000, 8.000 of 128.000 tokens)
- Snelheid: Meer tokens betekent langere verwerkingstijd
- Nauwkeurigheid: De manier waarop tekst getokeniseerd wordt, beïnvloedt hoe goed het model de betekenis begrijpt
Als vuistregel geldt dat in het Engels ongeveer 100 tokens overeenkomen met 75 woorden. In het Nederlands ligt deze verhouding iets anders door de langere samengestelde woorden die kenmerkend zijn voor de taal.
