Grafana OnCall für effizientes Störungsmanagement

Viele Organisationen kämpfen mit dezentraler und lückenhafter Überwachung ihrer Systeme, verzögerter Alarmierung und losen oder fehlenden Prozessen beim Incident Management. Spät abends klingelt das Telefon, ein Benutzer meldet Probleme beim Zugriff auf ein kritisches, internes System. Schnell versucht man herauszufinden, wo das Problem liegt, stellt Fragen, prüft die Systeme. Ist es ein Crash, Security Incident oder doch ein Stromausfall? Daraufhin wird versucht, einen Kollegen zu erreichen, das Team zu koordinieren, damit das Problem gelöst werden kann. Dieser Prozess dauert oft unnötig lange, während wertvolle, oft kritische Zeit verstreicht.

Wir von ONZACK unterstützen unsere Kunden beim Optimieren dieser Prozesse. Eines der Tools, das uns überzeugt und das wir für Kunden evaluiert haben, ist Grafana OnCall. Es ist darauf ausgelegt, diese Lücken mit kleinem Aufwand effizient und zuverlässig zu schliessen.

Grafana OnCall ist ein Tool für die Pikettdienst-Verwaltung und das Abbilden von Eskalationsprozessen. Bei jedem Alarm, egal zu welcher Tageszeit wird direkt das verantwortliche Team benachrichtigt – für schnelle Reaktionszeiten und maximale Absicherung.

OnCall wird über ein Plugin in Grafana verwaltet und hat selbst kein Web UI. Das umfassende Plugin kann einerseits zur Konfiguration verwendet werden, bietet aber auch einen Überblick über aktive und behandelte Alarme. Für die Verwaltung dieser Alarme stehen verschiedene Optionen zur Verfügung.

Neben dem genannten Plugin ist auch eine ChatOps-Integration mit Slack, Telegram oder MS Teams möglich. Zudem ist die Anbindung weiterer 3rd Party Applikationen über die HTTP API möglich. Monitoring Tools oder Alarmquellen werden über Integrationen an OnCall angebunden. Für viele der weitverbreiteten Tools bietet Grafana OnCall bereits vorgefertigte Integrationsmöglichkeiten. Zum Beispiel für Prometheus Alertmanager auf Kubernetes Plattformen, oder PRTG im Netzwerk Umfeld. Diese Integrationen lassen sich individuell auf die Anforderungen der Organisation anpassen, um Alarm-Inhalte zu formatieren, anzureichern und zur Eskalation an die richtige Eskalationskette zu routen.

Diese definierte Eskalationskette leitet Alarme wiederum sequenziell oder parallel an die gewünschten Benutzer weiter. Dabei stehen diverse Kanäle wie E-Mail, SMS und Anruf, Slack, MS Teams und Push-Nachrichten auf die OnCall App zur Verfügung. Für das Erstellen von Einsatzplänen kann das Web UI verwendet werden, Import und Export von Kalendern ist via iCal möglich. OnCall kann als Open Source Variante selbst gehosted, oder als SaaS direkt in Grafana Cloud bezogen werden.

Kosteneffizient, zuverlässig und einfach in der Handhabung ermöglicht Grafana OnCall die optimale Pikett-Organisation. ONZACK unterstützt dich und dein Unternehmen gerne beim Aufsetzen und Implementieren dieses bewährten Tools.