Stable Diffusion is een geavanceerd AI-model dat kunstmatige intelligentie gebruikt om afbeeldingen te genereren op basis van tekstuele beschrijvingen. Het model werd ontwikkeld door Stability AI in samenwerking met onderzoeksinstellingen en werd in 2022 publiekelijk gelanceerd als open-source project.
In tegenstelling tot gesloten systemen zoals DALL-E of Midjourney, is Stable Diffusion volledig open-source, wat betekent dat ontwikkelaars en creatieven het model kunnen downloaden, aanpassen en lokaal kunnen draaien op hun eigen hardware. Dit maakt het toegankelijk voor een breed publiek en heeft geleid tot een explosie aan innovatieve toepassingen en varianten.
Hoe werkt Stable Diffusion?
Het model is gebaseerd op diffusion technologie, een type machine learning waarbij het systeem leert om 'ruis' stapsgewijs te verwijderen uit een willekeurig beeld totdat het een coherente afbeelding heeft gecreëerd die overeenkomt met de tekstprompt. Het proces werkt als volgt:
- Training: Het model is getraind op miljoenen afbeelding-tekst paren om de relatie tussen woorden en visuele concepten te leren
- Encoding: De tekstprompt wordt omgezet in een numerieke representatie die het model kan begrijpen
- Diffusion proces: Beginnend met willekeurige ruis, verfijnt het model het beeld stap voor stap
- Decoding: Het uiteindelijke latente beeld wordt gedecodeerd naar een zichtbare afbeelding
Technische specificaties
Stable Diffusion draait op verschillende versies, elk met eigen kenmerken:
- SD 1.x: De eerste publieke versies, getraind op 512x512 pixel afbeeldingen
- SD 2.x: Verbeterde versies met hogere resolutie ondersteuning tot 768x768 pixels
- SDXL: De meest geavanceerde versie met native 1024x1024 resolutie en betere beeldkwaliteit
Het model vereist een GPU met minimaal 8GB VRAM voor lokaal gebruik, hoewel geoptimaliseerde versies ook op minder krachtige hardware kunnen draaien.
