> bits_and_friends _

$ cat /blog/2026-05-27-warum-ki-ohne-gute-datenquellen-wenig-bringt.de.md

Warum KI ohne gute Datenquellen wenig bringt — und was „gut" wirklich heißt

[de] [en]

Die meistgenannte Enttäuschung in KI-Projekten lautet: „Das System gibt falsche Antworten.” Bei genauerem Hinsehen ist die Ursache fast nie das Modell, sondern die Datenquelle. Das Modell hat halluziniert, weil die richtige Information in den indexierten Daten nicht zu finden war — oder weil mehrere widersprüchliche Versionen vorlagen und keine als verbindlich gekennzeichnet war.

Daten sind die unsichtbare, aber bestimmende Hälfte jeder ernsthaften KI-Anwendung.

Was eine gute Wissens-Datenquelle ausmacht

„Gut” ist im Datenquellen-Kontext kein vager Begriff. Sechs konkrete Eigenschaften unterscheiden produktive Wissensquellen von solchen, die mehr Probleme verursachen als sie lösen:

  • Aktualität. Wann wurde die Information zuletzt aktualisiert? Wenn das Dokument vier Jahre alt ist und die Welt sich seither geändert hat, ist es ein Risiko, nicht ein Asset.
  • Verbindlichkeit. Wer hat das Dokument freigegeben? Ist es die offizielle Version oder ein Entwurf, der nie verworfen wurde? Eine Datenquelle ohne klare Freigabe-Spur produziert widersprüchliche Antworten.
  • Eindeutigkeit der Aussage. Steht in dem Text klar, was gilt — oder ist er bewusst offen formuliert, um Spielräume zu lassen? KI-Systeme lieben klare Aussagen und stolpern über interpretierbare.
  • Quellenangabe. Worauf bezieht sich die Aussage? Auf eine Norm, einen internen Beschluss, eine eigene Berechnung? Ohne Quelle ist nicht prüfbar, ob die Information noch gilt.
  • Strukturiertheit. Ist das Dokument gegliedert, mit Überschriften, Aufzählungen, klar getrennten Themen? Lange Fließtexte ohne Struktur sind schwerer richtig zu zerlegen als gut gegliederte Texte.
  • Abgrenzung. Was steht in diesem Dokument — und was nicht? Wenn ein Dokument den Anspruch erweckt, eine Frage zu beantworten, sie aber nur teilweise abdeckt, ist die Lücke gefährlich.

In den meisten Unternehmen erfüllen weniger als 30 Prozent der bestehenden Wissensquellen diese sechs Kriterien. Die übrigen 70 Prozent sind nicht ungenutzt — aber sie sind eine Quelle für Halluzinationen, wenn die KI sie indexiert.

Wie ein Audit der eigenen Quellen aussieht

Bevor ein RAG-System aufgesetzt wird, lohnt sich ein Quellen-Audit. Das ist nicht aufwendig, aber strukturiert:

  1. Inventur: welche Quellen kommen überhaupt in Frage — Wiki, Sharepoint, Dateiserver, E-Mail-Archive, Ticket-Systeme, externe Dokumente?
  2. Bewertung: jede Quelle wird gegen die sechs Kriterien geprüft. Ergebnis ist eine Vier-Felder-Matrix: „uneingeschränkt indexieren / mit Vorbehalt indexieren / aufbereiten und dann indexieren / nicht indexieren”.
  3. Aufbereitung: die mittleren beiden Kategorien werden bearbeitet. Veraltete Dokumente werden aktualisiert oder archiviert. Mehrere widersprüchliche Versionen werden zu einer verbindlichen konsolidiert. Strukturlose Texte werden gegliedert.
  4. Klassifikation: Quellen werden mit Metadaten versehen — Datum, Freigeber, Geltungsbereich, Sensitivität. Diese Metadaten werden im RAG-System genutzt, um Antworten einzuordnen und zu filtern.

Dieser Schritt kostet Zeit — aber er ist der Unterschied zwischen einem RAG-System, dem das Unternehmen vertraut, und einem, das nach drei Wochen niemand mehr benutzt.

Warum gerade in mittelständischen Unternehmen viel zu holen ist

Mittelständische Unternehmen haben oft einen Vorteil, der unterschätzt wird: Sie haben Wissensquellen, die in größeren Konzernen längst in unzugängliche Spezial-Tools verschwunden sind. Wikis, Dateifreigaben, gepflegte Confluence-Spaces, gut geführte Ticket-Systeme. Das ist nutzbares Material, wenn es einmal sauber aufbereitet ist.

Was sie meistens nicht haben, sind die Master-Data-Management-Bürokratien und die Datenschutz-Architekturen, die in Konzernen die Aufbereitung verlangsamen. Ein Mittelständler kann das Audit in vier bis sechs Wochen durchführen — ein Konzern braucht für dasselbe ein Jahr.

Was sich nach dem Audit ändert

Der häufigste Nebeneffekt eines ehrlichen Quellen-Audits ist nicht das KI-System, sondern die Erkenntnis, wie viel Klarheit dem Unternehmen gefehlt hat. Welche Beschlüsse galten nun eigentlich? Welche Vorgaben waren überholt? Welche Themen waren so unterschiedlich dokumentiert, dass im Haus mehrere widersprüchliche Wahrheiten kursierten?

Diese Klarheit wäre ohne KI auch entstanden — aber wahrscheinlich erst durch einen schmerzhaften Vorfall. KI-Projekte zwingen dazu, sie freundlich zu erzeugen.

Was am Ende übrig bleibt

Eine KI-Anwendung mit guten Datenquellen produziert verlässliche Antworten, die das Unternehmen voranbringen. Eine KI-Anwendung mit unbearbeiteten Datenquellen produziert ein paar überzeugend klingende Halluzinationen — und vergiftet das Vertrauen in die ganze Technologie auf Jahre.

Wer ernsthaft mit KI arbeiten will, fängt nicht mit dem Modell an, sondern mit den Quellen. Diese Reihenfolge wirkt langsamer und ist es nicht.