Monitoring

Q: Wat is het verschil tussen monitoring en observability?

Monitoring richt zich op vooraf gedefinieerde signalen en drempels (bijv. CPU > 80%, p95 latency > 300 ms) om bekende problemen snel te detecteren. Observability gaat verder: met rijke telemetrie (metrics, logs, traces) kun je ook onbekende problemen onderzoeken en causale verbanden vinden. In de praktijk gebruik je monitoring voor snelle detectie en observability voor diepgaande diagnose.

Q: Hoe voorkom ik alert-moeheid (alert fatigue)?

Richt alerts in op echte gebruikersimpact en vermijd ruis:Koppel aan SLO’s: Alarmeer pas wanneer foutbudget in gevaar komt.Gebruik percentielen en stabilisatie: Drempels met evaluatievensters en hysterese.Combinaties van condities: Bijvoorbeeld hoge latency én verhoogde error rate.Deduplicatie en correlatie: Bundel gerelateerde alerts per incident.Onderhoudsvensters: Pauzeer alerts bij geplande deploys/werkzaamheden.Runbooks & escalaties: Heldere stappen en routes voor snelle afhandeling.

bewaking, toezicht, controle, observatie, volgen, tracken, tracking, monitoren, prestatiebewaking, doorlopend toezicht, statusbewaking, voortgangsbewaking, real-time bewaking, telemetrie, logging

Monitoring is het continu meten, visualiseren en alerteren van de gezondheid en prestaties van software, infrastructuur en digitale diensten.

Development

Wat is Monitoring?

Monitoring in softwareontwikkeling en IT is het systematisch verzamelen, opslaan, analyseren en visualiseren van telemetrie (zoals metrics, logs en traces) om de beschikbaarheid, prestaties en betrouwbaarheid van applicaties en infrastructuur te waarborgen. Het stelt teams in staat om proactief problemen te detecteren, snel te reageren op incidenten en continu te verbeteren.

Kernonderdelen

Metrics: Kwantitatieve meetpunten over tijd (bijv. CPU, geheugen, p95 latency, foutpercentages, doorvoer).
Logs: Gedetailleerde gebeurtenis- en foutberichten voor diagnose en audit.
Traces: End-to-end transactie-sporen door microservices om bottlenecks en root causes te vinden.

Typen monitoring

Infrastructuurmonitoring: Servers, containers, clusters, netwerk, opslag.
APM (Applicatiemonitoring): Verwerkingstijden, foutpercentages, service-afhankelijkheden en transacties.
Databasemonitoring: Langzame queries, verbindingen, locks, cache-hitratio.
Front-end & RUM: Echte gebruikersprestaties (bijv. LCP, CLS) en client-side fouten.
Synthetische tests: Geautomatiseerde checks van paden en uptime vanuit diverse locaties.
Security/compliance monitoring: Ongebruikelijke patronen, toegangslogs, policy- en configuratiedrift.

Doelen en KPI’s

SLI/SLO/SLA: Service Level Indicators en Objectives koppelen prestaties aan gewenste gebruikerservaring en contractuele afspraken.
MTTD/MTTR: Mean Time To Detect/Recover als maatstaf voor incidentreactie en herstel.
Beschikbaarheid & betrouwbaarheid: Uptime, foutbudgetten en stabiliteit.

Werkwijze

Instrumentatie: Agents, SDK’s of exporters (bijv. OpenTelemetry) in code en infrastructuur.
Opslag & analyse: Time-series databases en logplatforms voor query’s, aggregaties en correlatie.
Dashboards: Realtime visualisaties voor verschillende doelgroepen (engineering, product, management).
Alerting & incident response: Drempels, anomaliedetectie, on-call, escalaties, runbooks en postmortems.

Monitoring vs. Observability

Monitoring controleert bekende signalen en drempels; observability richt zich op het beantwoorden van onbekende vragen door rijke, gecorreleerde telemetrie. In de praktijk vullen ze elkaar aan.

Veelgebruikte tools

Voorbeelden: Prometheus & Grafana (metrics), ELK/OpenSearch (logs), Jaeger/Zipkin (tracing), Datadog/New Relic/Dynatrace (APM), Sentry (errors), Pingdom/UptimeRobot (synthetics), CloudWatch/Azure Monitor/Stackdriver (cloud).

Toepassingen

Monitoring is cruciaal in moderne DevOps- en SRE-omgevingen. Het helpt teams bij het waarborgen van stabiliteit, versnellen van incidentrespons en het continu verbeteren van prestaties.

Praktische toepassingen

Post-deploy validatie: Nieuwe releases bewaken (canary/blue-green) en snel terugdraaien bij regressies.
Performance-optimalisatie: Bottlenecks in code, database of netwerk identificeren en oplossen.
Capaciteit & kosten: Capaciteitsplanning, autoscaling en kostenbewaking (FinOps) op basis van gebruikspatronen.
Betrouwbaarheid & SRE: SLO’s bewaken, foutbudgetten beheren en prioriteiten stellen voor reliability-werk.
Gebruikerservaring: RUM en synthetische flows monitoren om conversie- en laadtijd-doelen te halen.
Beveiliging & compliance: Onregelmatigheden, misconfiguraties en policy-afwijkingen signaleren.
SLA-rapportage: Transparante rapportages naar stakeholders en klanten over uptime en prestaties.
Root cause analysis: Sneller oorzaken vinden door correlatie van metrics, logs en traces.

Best practices

Begin met SLO’s: Koppel alerts aan gebruikersimpact en service-doelen.
Meet percentielen (p95/p99): Gemiddelden verbergen pieken en echte gebruikerservaring.
Beperk ruis: Gebruik combinaties van condities, hysterese en deduplicatie.
Label & correlate: Voeg labels/tags toe (service, versie, regio) voor gerichte analyses.
Runbooks & testen: Documenteer stappen en test alerts periodiek (incl. onderhoudsvensters).
Privacy & retentie: Minimaliseer PII in logs en beheer bewaartermijnen kostenbewust.

Veelgestelde vragen

Wat is het verschil tussen monitoring en observability?

Monitoring richt zich op vooraf gedefinieerde signalen en drempels (bijv. CPU > 80%, p95 latency > 300 ms) om bekende problemen snel te detecteren. Observability gaat verder: met rijke telemetrie (metrics, logs, traces) kun je ook onbekende problemen onderzoeken en causale verbanden vinden. In de praktijk gebruik je monitoring voor snelle detectie en observability voor diepgaande diagnose.

Welke metrics moet ik als eerste monitoren voor een webapp of API?

Begin met de zogeheten 'golden signals' en kritieke resources:

Uptime & health: Ping/synthetic checks, health endpoints.
Latency: p95/p99 responstijd per endpoint en regio.
Throughput: Requests per seconde, queue- en batchverwerking.
Errors: 4xx/5xx ratio, exception rates, timeouts.
Resources: CPU, geheugen, disk I/O, netwerk, container limieten.
Database: Langzame queries, verbindingen, cache-hitratio.
Externe afhankelijkheden: Upstream/downstream services, third-party API’s.
Front-end (optioneel): LCP, CLS, JS errors via RUM.

Hoe voorkom ik alert-moeheid (alert fatigue)?

Richt alerts in op echte gebruikersimpact en vermijd ruis:

Koppel aan SLO’s: Alarmeer pas wanneer foutbudget in gevaar komt.
Gebruik percentielen en stabilisatie: Drempels met evaluatievensters en hysterese.
Combinaties van condities: Bijvoorbeeld hoge latency én verhoogde error rate.
Deduplicatie en correlatie: Bundel gerelateerde alerts per incident.
Onderhoudsvensters: Pauzeer alerts bij geplande deploys/werkzaamheden.
Runbooks & escalaties: Heldere stappen en routes voor snelle afhandeling.

Auteur & updates

Auteur: Wouter

Publicatiedatum: 29-01-2026

Laatste update: 29-01-2026