Leistung · AI_AGENTS

KI-Agenten für Unternehmen

Sprachmodell-gestützte Agenten, die wiederkehrende Aufgaben in Ihren Workflow übernehmen — mit klar umrissenen Tools, dokumentiertem Audit-Trail, Eval-Suite und Human-in-the-Loop. Kein Chatbot-Spielzeug, sondern Werkzeuge, die im Linienbetrieb tragen.

Abgrenzung: Chatbot vs. KI-Agent

Ein Chatbot reagiert auf Anfragen mit Text. Ein KI-Agent erledigt eine konkrete Aufgabe in einem Prozess — er liest Eingaben, klassifiziert, ruft Tools auf, schreibt Daten zurück, eskaliert wenn nötig an Menschen. Chatbots leben am User-Frontend; Agenten leben in Ihrem Geschäftsprozess. Wir bauen Agenten.

Typische Einsatzfälle

Ticket-Klassifikation und intelligentes Routing (KIX, OTRS, Jira, Zammad)
Doku-Assistenten mit RAG über Confluence, SharePoint, Filesystem oder Wissensbasis
Code-Review-Agenten für PR-Triage, Style-Checks und Onboarding-Hinweise
Customer-Support-Vorqualifikation mit sauberer Übergabe an menschliche Agents
Daten-Anreicherung — strukturierte Felder aus Freitext extrahieren
Compliance-Vorprüfung von Dokumenten gegen Policy-Sets
Automatisierte Berichts-Erstellung aus heterogenen Datenquellen
Operations-Agenten für DevOps-Workflows (Build-Triage, Incident-Vorklassifikation)

Vorgehen

Use-Case-Analyse — Welche Entscheidung wird heute manuell getroffen, wie oft, mit welcher Fehlertoleranz? Was ist messbares Ziel?
Modell-Auswahl — On-Premise (Llama, Gemma, Mistral via vLLM/llama.cpp) oder API (OpenAI, Anthropic), je nach Daten-Schutzklasse und Latenz-Budget.
Tool-Definition — welche externen Aktionen darf der Agent ausführen? Mit welchen Permissions? Welche Fallback-Pfade gelten?
RAG-Anbindung — Vector-Store-Setup (pgvector, Qdrant, Weaviate), Wissensquellen, Quellen-Zwang in der Antwort.
Eval-Loop — Goldenes Test-Set, automatisierte Bewertung, Regressions-Tests bei jedem Prompt-Refactor.
Betrieb — Monitoring (Latenz, Token-Verbrauch, Eval-Drift), Alerting, Human-in-the-Loop-Eingriff, Audit-Log.

Tech-Stack

LangChain
LangGraph
LlamaIndex
Pydantic-AI
vLLM
llama.cpp
Ollama
HuggingFace
OpenAI
Anthropic
Mistral
Gemma
Llama 3/4
pgvector
Qdrant
Weaviate
Chroma
Promptfoo
LangSmith
Phoenix
Ragas
FastAPI
Python
TypeScript
Docker

Deliverables

Agent-Code im Repo, modular getrennt in Prompts, Tools, Eval, Observability
Eval-Suite mit Gold-Set, CI-Integration, Regression-Gate
Monitoring-Dashboard für Latenz, Token-Cost, Eval-Score, Tool-Use-Quote
Audit-Log-Schema (wer fragte was, was antwortete der Agent, welcher Mensch gab frei)
Betriebs-Runbook inkl. Roll-Back-Pfad bei Modell- oder Prompt-Drift
Schulung Ihres Teams in Prompt-Pflege, Tool-Erweiterung und Eval-Updates

Kundennutzen

Spürbar entlastete Mitarbeitende durch übernommene Routinearbeit
Weniger Backlog, höhere Bearbeitungs-Geschwindigkeit bei Standardvorgängen
Konsistente Qualität — der Agent macht „Routine-Fall A" immer gleich
Vollständige Nachvollziehbarkeit über Audit-Log und Eval-Berichte
Skalierbarkeit ohne lineares Personal-Wachstum

Compliance & Security

Datenklassifikation vor Modell-Auswahl — keine VS-NfD-Daten zu Cloud-APIs
On-Premise-Option für regulierte Branchen (KRITIS, Banking, Health, öffentlich)
EU-AI-Act-Bewertung des Use-Cases (Risk-Tier, Transparenz-Pflichten)
ISO/IEC 42001 als Management-System für KI-Governance, sofern relevant
Audit-Trail aller Agent-Entscheidungen inkl. Modell-Version und Prompt-Hash
Red-Teaming gegen Prompt-Injection und Tool-Missbrauch (siehe IT-Administration)

FAQ

Bauen Sie Agenten von Grund auf oder kombinieren Sie fertige Frameworks?

Beides — wir nutzen LangChain/LangGraph/LlamaIndex als Baukasten, schreiben aber agentenspezifische Logik (Tools, Eval, State-Machines) selbst, wenn ein Framework-Wrapper Performance oder Wartbarkeit kostet. Ziel ist immer ein Agent, den Ihr Team in fünf Jahren noch versteht.

Was ist mit Halluzinationen und Sicherheit?

Zwei Schichten: (1) im Design — strikte Tool-Definitionen, RAG-Quellenzwang, Antwort-Validierung gegen Schema, Confidence-Schwellen. (2) im Betrieb — Human-in-the-Loop für jede Entscheidung mit Außenwirkung, gold-set-basierte Eval als Regressions-Gate, Drift-Monitoring. Unser AI-Security-Audit (Teil der IT-Administration) deckt zusätzlich Red-Teaming ab.

Reicht ein lokales Modell oder muss es GPT/Claude sein?

Hängt vom Use-Case. Klassifikation, strukturierte Extraktion, Code-Triage: ein 7–27B-Modell on-prem (Gemma, Llama, Mistral) reicht oft. Freie Konversation mit Tool-Use bei niedriger Latenz: dann gehen API-Modelle vor. Modell-Größe ist Mittel, nicht Selbstzweck.

Wie schnell sehen wir Ergebnisse?

2–3 Wochen für einen funktionsfähigen Prototyp mit echtem Eval auf Ihrem Use-Case. Produktionsreife je nach Compliance-Tiefe und Integrations-Breite typisch 6–12 Wochen.

Was passiert mit den Daten?

Bleibt bei Ihnen — wir hosten nichts dauerhaft. Entwicklung wahlweise in unserer DSGVO-konformen DACH-Cloud (Hetzner), in Ihrer Umgebung oder in air-gapped Setups. Bei API-Modellen klären wir vorab DPA-Status, Datenlokalität und Opt-Out für Training.

Agenten-Use-Case besprechen

Welcher repetitive Vorgang frisst gerade Stunden pro Tag? Schildern Sie uns die Aufgabe — wir antworten mit einer ersten Einschätzung zu Machbarkeit, Modell-Wahl und Effort.

> KI-Readiness-Check starten