Een Generative Pre-trained Transformer (GPT) is een groot taalmodel (LLM) dat tekst voorspelt en genereert met behulp van de transformer-architectuur. Het model wordt eerst grootschalig voorgetraind op diverse tekstdata om algemene taalpatronen te leren en kan vervolgens fijn-afgesteld worden (bijv. via instructietuning of RLHF) voor specifieke taken of een bepaalde stijl.
Hoe het werkt
- Transformer-architectuur: GPT gebruikt zelfaandacht (self-attention) om relaties tussen woorden/tokens te modelleren, ongeacht hun positie in de zin.
- Decoder-only model: In tegenstelling tot encoder-decoder-modellen genereert GPT tekst door telkens het volgende token te voorspellen op basis van de context.
- Tokens, contextvenster en parameters: Invoer en uitvoer bestaan uit tokens. Het contextvenster bepaalt hoeveel tokens het model tegelijk kan overzien. Het aantal parameters beïnvloedt capaciteit en kwaliteit.
- Pre-training en fine-tuning: Pre-training leert algemene taalvaardigheid; fine-tuning en technieken als Reinforcement Learning from Human Feedback (RLHF) richten het model op gewenste output en gedrag.
- Niet-deterministisch: Door sampling en instellingen zoals temperature kan dezelfde prompt verschillende outputs opleveren.
Sterktes en beperkingen
- Sterk in: samenvatten, vertalen, redigeren, codegeneratie, Q&A, classificeren, plannen en brainstormen.
- Beperkingen: mogelijke hallucinaties (bedachte feiten), contextlimieten, bias uit trainingsdata en een kennis-cutoff (niet altijd up-to-date).
Voorbeelden en varianten
- GPT-2 → GPT-3 → GPT-3.5 → GPT-4 (en GPT-4o): opeenvolgende generaties met verbeteringen in kwaliteit, multimodaliteit (bijv. beeld/spraak), efficiëntie en veiligheid.
- Specialisaties: instructiemodellen, modellen voor function calling, en versies geoptimaliseerd voor lage latentie of lagere kosten.
