Een Data Warehouse is een gespecialiseerd databasesysteem dat is ontworpen voor het opslaan, beheren en analyseren van grote hoeveelheden historische data uit verschillende bronnen binnen een organisatie. In tegenstelling tot operationele databases die zijn geoptimaliseerd voor dagelijkse transacties, is een Data Warehouse specifiek gebouwd voor complexe queries en analyses.
Het concept werd in de jaren '80 geïntroduceerd door Bill Inmon, die wordt beschouwd als de vader van data warehousing. Een Data Warehouse fungeert als een centrale opslagplaats waar data uit verschillende systemen zoals CRM, ERP, e-commerce platforms en marketing tools wordt geïntegreerd, getransformeerd en opgeslagen in een consistente structuur.
Kernkenmerken van een Data Warehouse
Een Data Warehouse onderscheidt zich door vier essentiële kenmerken:
- Subject-georiënteerd: Data is georganiseerd rondom belangrijke bedrijfsonderwerpen zoals klanten, producten, verkoop of marketing in plaats van applicaties
- Geïntegreerd: Data uit verschillende bronnen wordt samengevoegd en gestandaardiseerd, waarbij inconsistenties worden opgelost
- Tijdgebonden: Alle data bevat een tijdsdimensie, waardoor historische analyses en trendanalyses mogelijk zijn
- Niet-volatiel: Data wordt niet verwijderd of gewijzigd na opslag, wat zorgt voor een betrouwbare historische database
Architectuur en componenten
Een typische Data Warehouse architectuur bestaat uit meerdere lagen:
- Databronnen: Operationele systemen, externe data feeds, spreadsheets en andere bronnen
- ETL-laag: Extract, Transform, Load processen die data ophalen, transformeren en laden in het warehouse
- Opslaglaag: Het centrale warehouse waar geïntegreerde data wordt opgeslagen, vaak met data marts voor specifieke afdelingen
- Presentatielaag: Business intelligence tools, dashboards en rapportagetools voor eindgebruikers
- Metadata: Informatie over de data, zoals definities, bronnen en transformatieregels
Verschil met andere data-oplossingen
Een Data Warehouse verschilt van andere data-oplossingen op belangrijke punten. Ten opzichte van operationele databases is het geoptimaliseerd voor lezen en analyseren in plaats van schrijven en transacties. Een Data Lake daarentegen slaat ruwe, ongestructureerde data op, terwijl een Data Warehouse gestructureerde, getransformeerde data bevat. Data Marts zijn kleinere, afdelingsspecifieke subsets van een Data Warehouse, gefocust op specifieke bedrijfsgebieden.
