Embeddings zijn een fundamentele techniek binnen machine learning en kunstmatige intelligentie waarbij complexe data zoals woorden, zinnen, afbeeldingen of andere informatie worden omgezet in numerieke vectoren. Deze vectoren zijn reeksen getallen die de semantische betekenis en eigenschappen van de originele data vastleggen in een multidimensionale ruimte.
Het bijzondere aan embeddings is dat ze niet alleen de data representeren, maar ook de onderlinge relaties en betekenissen bewaren. Woorden of concepten die semantisch verwant zijn, krijgen vectoren die dicht bij elkaar liggen in de vectorruimte. Zo zullen de embeddings van 'hond' en 'kat' dichter bij elkaar liggen dan die van 'hond' en 'vliegtuig'.
Hoe werken embeddings?
Embeddings worden gegenereerd door neurale netwerken die getraind zijn op grote hoeveelheden data. Het netwerk leert patronen en relaties te herkennen en vertaalt deze naar numerieke representaties. Een typische embedding bestaat uit honderden tot duizenden dimensies, waarbij elke dimensie een bepaald aspect of kenmerk van de data representeert.
Voor tekstuele data zijn er verschillende bekende embedding-modellen:
- Word2Vec: Een van de eerste populaire methoden die woorden in vectoren omzet op basis van hun context
- GloVe: Global Vectors for Word Representation, die statistieken van woord co-occurrences gebruikt
- BERT embeddings: Contextuele embeddings die rekening houden met de volledige zinscontext
- OpenAI embeddings: Moderne embeddings die gebruikt worden in GPT-modellen
Eigenschappen van embeddings
Embeddings hebben enkele opmerkelijke eigenschappen die ze krachtig maken voor AI-toepassingen:
- Semantische similariteit: Vergelijkbare concepten hebben vergelijkbare vectoren
- Dimensie reductie: Complexe data wordt gecomprimeerd naar een efficiënte representatie
- Rekenbare relaties: Vectoroperaties kunnen betekenisvolle relaties blootleggen (bijvoorbeeld: vector('koning') - vector('man') + vector('vrouw') ≈ vector('koningin'))
- Transfer learning: Pre-trained embeddings kunnen hergebruikt worden voor verschillende taken
Soorten embeddings
Er bestaan verschillende soorten embeddings voor verschillende datatypes:
- Word embeddings: Representaties van individuele woorden
- Sentence embeddings: Vectoren die hele zinnen of paragrafen vastleggen
- Document embeddings: Representaties van complete documenten
- Image embeddings: Numerieke representaties van afbeeldingen
- Multimodal embeddings: Vectoren die meerdere datatypes combineren (tekst + beeld)
