Monitoring

bewaking, toezicht, controle, observatie, volgen, tracken, tracking, monitoren, prestatiebewaking, doorlopend toezicht, statusbewaking, voortgangsbewaking, real-time bewaking, telemetrie, logging
Monitoring is het continu meten, visualiseren en alerteren van de gezondheid en prestaties van software, infrastructuur en digitale diensten.

Wat is Monitoring?

Monitoring in softwareontwikkeling en IT is het systematisch verzamelen, opslaan, analyseren en visualiseren van telemetrie (zoals metrics, logs en traces) om de beschikbaarheid, prestaties en betrouwbaarheid van applicaties en infrastructuur te waarborgen. Het stelt teams in staat om proactief problemen te detecteren, snel te reageren op incidenten en continu te verbeteren.

Kernonderdelen

  • Metrics: Kwantitatieve meetpunten over tijd (bijv. CPU, geheugen, p95 latency, foutpercentages, doorvoer).
  • Logs: Gedetailleerde gebeurtenis- en foutberichten voor diagnose en audit.
  • Traces: End-to-end transactie-sporen door microservices om bottlenecks en root causes te vinden.

Typen monitoring

  • Infrastructuurmonitoring: Servers, containers, clusters, netwerk, opslag.
  • APM (Applicatiemonitoring): Verwerkingstijden, foutpercentages, service-afhankelijkheden en transacties.
  • Databasemonitoring: Langzame queries, verbindingen, locks, cache-hitratio.
  • Front-end & RUM: Echte gebruikersprestaties (bijv. LCP, CLS) en client-side fouten.
  • Synthetische tests: Geautomatiseerde checks van paden en uptime vanuit diverse locaties.
  • Security/compliance monitoring: Ongebruikelijke patronen, toegangslogs, policy- en configuratiedrift.

Doelen en KPI’s

  • SLI/SLO/SLA: Service Level Indicators en Objectives koppelen prestaties aan gewenste gebruikerservaring en contractuele afspraken.
  • MTTD/MTTR: Mean Time To Detect/Recover als maatstaf voor incidentreactie en herstel.
  • Beschikbaarheid & betrouwbaarheid: Uptime, foutbudgetten en stabiliteit.

Werkwijze

  • Instrumentatie: Agents, SDK’s of exporters (bijv. OpenTelemetry) in code en infrastructuur.
  • Opslag & analyse: Time-series databases en logplatforms voor query’s, aggregaties en correlatie.
  • Dashboards: Realtime visualisaties voor verschillende doelgroepen (engineering, product, management).
  • Alerting & incident response: Drempels, anomaliedetectie, on-call, escalaties, runbooks en postmortems.

Monitoring vs. Observability

Monitoring controleert bekende signalen en drempels; observability richt zich op het beantwoorden van onbekende vragen door rijke, gecorreleerde telemetrie. In de praktijk vullen ze elkaar aan.

Veelgebruikte tools

Voorbeelden: Prometheus & Grafana (metrics), ELK/OpenSearch (logs), Jaeger/Zipkin (tracing), Datadog/New Relic/Dynatrace (APM), Sentry (errors), Pingdom/UptimeRobot (synthetics), CloudWatch/Azure Monitor/Stackdriver (cloud).

Toepassingen

Monitoring is cruciaal in moderne DevOps- en SRE-omgevingen. Het helpt teams bij het waarborgen van stabiliteit, versnellen van incidentrespons en het continu verbeteren van prestaties.

Praktische toepassingen

  • Post-deploy validatie: Nieuwe releases bewaken (canary/blue-green) en snel terugdraaien bij regressies.
  • Performance-optimalisatie: Bottlenecks in code, database of netwerk identificeren en oplossen.
  • Capaciteit & kosten: Capaciteitsplanning, autoscaling en kostenbewaking (FinOps) op basis van gebruikspatronen.
  • Betrouwbaarheid & SRE: SLO’s bewaken, foutbudgetten beheren en prioriteiten stellen voor reliability-werk.
  • Gebruikerservaring: RUM en synthetische flows monitoren om conversie- en laadtijd-doelen te halen.
  • Beveiliging & compliance: Onregelmatigheden, misconfiguraties en policy-afwijkingen signaleren.
  • SLA-rapportage: Transparante rapportages naar stakeholders en klanten over uptime en prestaties.
  • Root cause analysis: Sneller oorzaken vinden door correlatie van metrics, logs en traces.

Best practices

  • Begin met SLO’s: Koppel alerts aan gebruikersimpact en service-doelen.
  • Meet percentielen (p95/p99): Gemiddelden verbergen pieken en echte gebruikerservaring.
  • Beperk ruis: Gebruik combinaties van condities, hysterese en deduplicatie.
  • Label & correlate: Voeg labels/tags toe (service, versie, regio) voor gerichte analyses.
  • Runbooks & testen: Documenteer stappen en test alerts periodiek (incl. onderhoudsvensters).
  • Privacy & retentie: Minimaliseer PII in logs en beheer bewaartermijnen kostenbewust.

Veelgestelde vragen

Monitoring richt zich op vooraf gedefinieerde signalen en drempels (bijv. CPU > 80%, p95 latency > 300 ms) om bekende problemen snel te detecteren. Observability gaat verder: met rijke telemetrie (metrics, logs, traces) kun je ook onbekende problemen onderzoeken en causale verbanden vinden. In de praktijk gebruik je monitoring voor snelle detectie en observability voor diepgaande diagnose.

Begin met de zogeheten 'golden signals' en kritieke resources:

  • Uptime & health: Ping/synthetic checks, health endpoints.
  • Latency: p95/p99 responstijd per endpoint en regio.
  • Throughput: Requests per seconde, queue- en batchverwerking.
  • Errors: 4xx/5xx ratio, exception rates, timeouts.
  • Resources: CPU, geheugen, disk I/O, netwerk, container limieten.
  • Database: Langzame queries, verbindingen, cache-hitratio.
  • Externe afhankelijkheden: Upstream/downstream services, third-party API’s.
  • Front-end (optioneel): LCP, CLS, JS errors via RUM.

Richt alerts in op echte gebruikersimpact en vermijd ruis:

  • Koppel aan SLO’s: Alarmeer pas wanneer foutbudget in gevaar komt.
  • Gebruik percentielen en stabilisatie: Drempels met evaluatievensters en hysterese.
  • Combinaties van condities: Bijvoorbeeld hoge latency én verhoogde error rate.
  • Deduplicatie en correlatie: Bundel gerelateerde alerts per incident.
  • Onderhoudsvensters: Pauzeer alerts bij geplande deploys/werkzaamheden.
  • Runbooks & escalaties: Heldere stappen en routes voor snelle afhandeling.

Auteur & updates

Auteur: Wouter
Publicatiedatum: 29-01-2026
Laatste update: 29-01-2026