Monitoring in softwareontwikkeling en IT is het systematisch verzamelen, opslaan, analyseren en visualiseren van telemetrie (zoals metrics, logs en traces) om de beschikbaarheid, prestaties en betrouwbaarheid van applicaties en infrastructuur te waarborgen. Het stelt teams in staat om proactief problemen te detecteren, snel te reageren op incidenten en continu te verbeteren.
Kernonderdelen
- Metrics: Kwantitatieve meetpunten over tijd (bijv. CPU, geheugen, p95 latency, foutpercentages, doorvoer).
- Logs: Gedetailleerde gebeurtenis- en foutberichten voor diagnose en audit.
- Traces: End-to-end transactie-sporen door microservices om bottlenecks en root causes te vinden.
Typen monitoring
- Infrastructuurmonitoring: Servers, containers, clusters, netwerk, opslag.
- APM (Applicatiemonitoring): Verwerkingstijden, foutpercentages, service-afhankelijkheden en transacties.
- Databasemonitoring: Langzame queries, verbindingen, locks, cache-hitratio.
- Front-end & RUM: Echte gebruikersprestaties (bijv. LCP, CLS) en client-side fouten.
- Synthetische tests: Geautomatiseerde checks van paden en uptime vanuit diverse locaties.
- Security/compliance monitoring: Ongebruikelijke patronen, toegangslogs, policy- en configuratiedrift.
Doelen en KPI’s
- SLI/SLO/SLA: Service Level Indicators en Objectives koppelen prestaties aan gewenste gebruikerservaring en contractuele afspraken.
- MTTD/MTTR: Mean Time To Detect/Recover als maatstaf voor incidentreactie en herstel.
- Beschikbaarheid & betrouwbaarheid: Uptime, foutbudgetten en stabiliteit.
Werkwijze
- Instrumentatie: Agents, SDK’s of exporters (bijv. OpenTelemetry) in code en infrastructuur.
- Opslag & analyse: Time-series databases en logplatforms voor query’s, aggregaties en correlatie.
- Dashboards: Realtime visualisaties voor verschillende doelgroepen (engineering, product, management).
- Alerting & incident response: Drempels, anomaliedetectie, on-call, escalaties, runbooks en postmortems.
Monitoring vs. Observability
Monitoring controleert bekende signalen en drempels; observability richt zich op het beantwoorden van onbekende vragen door rijke, gecorreleerde telemetrie. In de praktijk vullen ze elkaar aan.
Veelgebruikte tools
Voorbeelden: Prometheus & Grafana (metrics), ELK/OpenSearch (logs), Jaeger/Zipkin (tracing), Datadog/New Relic/Dynatrace (APM), Sentry (errors), Pingdom/UptimeRobot (synthetics), CloudWatch/Azure Monitor/Stackdriver (cloud).
