> bits_and_friends _

$ cat /blog/2026-05-27-ki-im-it-betrieb-monitoring-runbooks-dokumentation.de.md

KI im IT-Betrieb — Monitoring, Runbooks, Dokumentation neu gedacht

[de] [en]

Die alte Diskussion „löst KI den Admin ab?” geht am Thema vorbei. Die produktive Frage lautet: An welchen Stellen im IT-Betrieb verbringt ein erfahrener Administrator heute Zeit mit Tätigkeiten, die unter seiner Qualifikation liegen — und welche davon kann eine KI mit angemessener Qualität übernehmen?

Drei Bereiche sind aktuell besonders ergiebig.

Monitoring-Alarme einordnen

Monitoring-Systeme produzieren Alarme. Viele Alarme. Ein großer Teil davon sind keine echten Vorfälle, sondern Folgen bekannter Muster — kurze Spitzen, geplante Jobs, Netzwerk-Schluckauf, oder die berüchtigten kaskadierenden Folge-Alarme nach einem einzigen Ursache-Vorfall.

Hier hilft KI auf drei Ebenen:

  • Deduplikation: zusammengehörende Alarme werden zu einem Vorfall gruppiert. Ein Datenbankausfall produziert nicht zehn separate Tickets, sondern ein zusammenfassendes Ticket mit den zehn Folge-Symptomen als Detail.
  • Klassifikation: ist dieser Alarm ein bekanntes Muster (mit zugehöriger Standard-Lösung) oder etwas Neues? Bekannte Muster werden mit Verweis auf das passende Runbook angereichert; Neues geht direkt zur Sichtung.
  • Anomalie-Erkennung: statt fester Schwellwerte (CPU >90% löst Alarm aus) wird die Abweichung vom typischen Verlauf bewertet — was am Mittwochabend normal ist, kann am Sonntagmorgen ungewöhnlich sein.

Das Ergebnis: Aus 200 Alarmen pro Tag werden 20 Vorgänge, von denen 15 mit Lösungsvorschlag und 5 zur menschlichen Sichtung kommen. Das ist nicht weniger Information — es ist weniger Lärm.

Runbooks vorschlagen statt suchen

Ein Runbook ist die schriftliche Anleitung, wie ein bestimmter Vorfall behoben wird. Gute Runbooks gibt es in jedem reifen Betrieb. Das Problem ist nicht ihre Qualität, sondern ihre Auffindbarkeit. Wenn ein Vorfall um drei Uhr morgens auftritt, sucht der Bereitschaftshabende nicht selten zwanzig Minuten, bis er das passende Runbook gefunden hat.

KI-Unterstützung verkürzt diesen Schritt drastisch:

  • Auf Basis der Alarm-Texte, der betroffenen Systeme und der historischen Vorfälle wird vorgeschlagen, welche Runbooks in Frage kommen.
  • Bei klarer Übereinstimmung wird ein einziges Runbook direkt geöffnet.
  • Bei mehreren Kandidaten werden die zwei bis drei wahrscheinlichsten mit Begründung angezeigt.
  • Aus den Schritten des Runbooks werden — wo sinnvoll — vorausführbare Befehle generiert, die der Mensch nur freigibt.

Wichtig: die KI ersetzt das Runbook nicht und sie führt es auch nicht selbständig aus. Sie sucht es, schlägt es vor, bereitet die Ausführung vor. Den Auslöser drückt der Mensch.

Dokumentation aktuell halten

Die ehrlichste Schwäche fast aller IT-Abteilungen ist die Aktualität der Dokumentation. Configs ändern sich. Systeme werden migriert. Verantwortlichkeiten verschieben sich. Die Dokumentation hinkt regelmäßig drei bis sechs Monate hinterher — und manche Seiten sind seit Jahren falsch.

Hier kann KI auf zwei Wegen helfen:

  • Erkennen, was abweicht. Ein KI-Agent vergleicht regelmäßig den dokumentierten Soll-Zustand (etwa: „Server X läuft Ubuntu 22.04 mit Postgres 15”) mit dem Ist-Zustand aus dem Monitoring. Abweichungen werden gemeldet — als Vorschlag, die Doku zu aktualisieren oder den Ist-Zustand zu korrigieren.
  • Aus Vorgängen Dokumentation erzeugen. Wenn ein Vorfall gelöst und dokumentiert wurde, kann die KI aus der Lösung einen Vorschlag für ein neues Runbook oder eine ergänzende Wiki-Seite generieren. Der menschliche Reviewer kürzt, korrigiert, ergänzt — die mühsame erste Fassung ist bereits da.

Das Ergebnis ist nicht perfekte Dokumentation, aber eine Dokumentation, die nicht mehr veraltet liegt, sondern aktiv mit dem Betrieb mitwandert.

Wo der Mensch zwingend bleiben muss

Es gibt Bereiche im IT-Betrieb, in denen KI heute nicht autonom handeln darf — und in absehbarer Zeit nicht handeln sollte:

  • Eingriffe in Produktivsysteme (Restart, Failover, Konfigurationsänderung) — die Entscheidung trifft ein Mensch. Die KI kann vorbereiten und ausführen, aber nicht entscheiden.
  • Sicherheitsrelevante Bewertungen (Ist das ein Angriff? Ist das ein False Positive?) — die Klassifikation kann unterstützt werden, die Bewertung bleibt menschlich.
  • Personalisierende Entscheidungen (Berechtigungen, Zugriffsverweigerung, Eskalationsfreigabe) — hier gilt sowohl rechtlich als auch operativ: Mensch im Loop.

Diese Linie ist nicht aus Misstrauen gezogen, sondern aus Erfahrung. Sie wird sich verschieben — aber sie wird sich nur dann sicher verschieben, wenn die Schritte davor gut funktionieren.

Was am Ende übrig bleibt

Ein IT-Betrieb mit KI-Unterstützung hat nicht weniger Administratoren, sondern andere. Die Tätigkeit verschiebt sich von der Reaktion auf Symptome zur Gestaltung von Mustern: Wie kategorisieren wir Alarme? Welche Runbooks brauchen wir? Wie pflegen wir unsere Dokumentation? Diese Tätigkeit ist anspruchsvoller als die alte — und sie skaliert mit der Erfahrung des Teams.

KI nimmt die Mechanik. Übrig bleibt die Ingenieursleistung.