KI-Agenten sind keine Zukunftsmusik mehr. Sie buchen Meetings, analysieren Verträge, schreiben Code und treffen operative Entscheidungen. Was vor zwei Jahren noch als Forschungsthema galt, steckt heute in Produktionsumgebungen. Eine aktuelle OutSystems-Studie zeigt: 94% der befragten Unternehmen machen sich Sorgen um unkontrollierten KI-Agenten-Sprawl. Das Problem ist nicht die Technologie selbst, sondern die fehlende Steuerung drumherum.
Governance für klassische KI-Modelle (Bias-Prüfung, Datenqualität, Modell-Monitoring) reicht für autonome Agenten nicht aus. Agenten handeln eigenständig, verketten Entscheidungen und interagieren mit externen Systemen. Das erfordert ein Governance-Framework, das diese neue Realität abbildet.
Warum klassische KI-Governance nicht reicht
Traditionelle KI-Governance konzentriert sich auf Modelle: Trainingsdaten prüfen, Output-Qualität messen, Bias erkennen. Das funktioniert für ein Empfehlungssystem oder eine Textklassifikation. Agentic AI bringt drei zusätzliche Dimensionen ins Spiel.
Erstens: Agenten treffen Ketten von Entscheidungen. Ein Agent, der eine Kundenanfrage bearbeitet, liest das Ticket, sucht in der Wissensdatenbank, formuliert eine Antwort und eskaliert bei Bedarf an einen Menschen. Jeder Schritt ist eine Entscheidung, die auf der vorherigen aufbaut. Fehler kaskadieren.
Zweitens: Agenten nutzen Tools. Sie greifen auf APIs, Datenbanken und externe Services zu. Damit erweitert sich die Angriffsfläche. Ein Agent mit Schreibzugriff auf das CRM ist ein anderes Risiko als ein Chatbot, der Texte generiert.
Drittens: Agenten interagieren miteinander. In Multi-Agent-Setups delegiert ein Orchestrator-Agent Aufgaben an spezialisierte Sub-Agenten. Wer ist verantwortlich, wenn der Orchestrator eine falsche Priorisierung vornimmt und ein Sub-Agent daraufhin fehlerhafte Daten produziert?
Die vier Säulen eines Agentic-AI-Governance-Frameworks
Aus unserer Projektarbeit und der Analyse aktueller Governance-Ansätze haben sich vier Bereiche herauskristallisiert, die ein Framework für autonome Agenten abdecken muss.
Säule 1: Berechtigungsmodell und Scope-Kontrolle
Jeder Agent braucht ein klar definiertes Berechtigungsmodell. Das klingt trivial, wird in der Praxis aber häufig übersprungen. Konkret bedeutet das:
## Beispiel: Agent-Berechtigungsprofil
agent:
name: "customer-support-agent"
scope:
read: ["tickets", "knowledge-base", "customer-profile"]
write: ["ticket-comments", "internal-notes"]
forbidden: ["billing", "contracts", "personal-data-export"]
escalation:
trigger: ["refund > 500 EUR", "legal-keywords", "sentiment < 0.3"]
target: "human-reviewer"
rate_limits:
actions_per_hour: 100
external_api_calls: 50
Der entscheidende Punkt: Agenten sollten nach dem Prinzip der minimalen Berechtigung arbeiten. Ein Support-Agent braucht keinen Zugriff auf Abrechnungsdaten. Ein Recherche-Agent braucht keinen Schreibzugriff. Das Berechtigungsmodell muss vor dem Deployment definiert und regelmäßig überprüft werden.
Säule 2: Entscheidungs-Logging und Nachvollziehbarkeit
Jede Aktion eines Agenten muss nachvollziehbar sein. Nicht nur das Endergebnis, sondern der gesamte Entscheidungspfad. Das ist besonders relevant für regulierte Branchen (Finanzdienstleistungen, Gesundheitswesen, öffentlicher Sektor), wird aber zunehmend auch in anderen Bereichen erwartet.
Ein Entscheidungs-Log für Agenten sollte mindestens enthalten:
- Welcher Agent hat gehandelt?
- Welchen Input hat er erhalten?
- Welche Tools hat er aufgerufen (und mit welchen Parametern)?
- Welche Zwischenschritte gab es?
- Welches Ergebnis wurde produziert?
- Gab es einen Human-in-the-Loop-Checkpoint?
Technisch lässt sich das über strukturiertes Logging mit Trace-IDs umsetzen. Jede Agent-Session bekommt eine eindeutige ID, über die sich der komplette Ablauf rekonstruieren lässt:
import structlog
from uuid import uuid4
logger = structlog.get_logger()
def agent_action(agent_name: str, action: str, context: dict):
trace_id = str(uuid4())
logger.info(
"agent_action",
trace_id=trace_id,
agent=agent_name,
action=action,
context=context,
timestamp=datetime.utcnow().isoformat(),
)
return trace_id
Säule 3: Eskalation und Human-in-the-Loop
Autonomie ohne Grenzen ist keine Stärke, sondern ein Risiko. Jeder Agent braucht definierte Eskalationspfade. Das bedeutet nicht, dass ein Mensch jede Entscheidung absegnen muss. Es bedeutet, dass es klare Schwellenwerte gibt, ab denen ein Mensch eingebunden wird.
Typische Eskalationskriterien:
- Finanzielle Schwellenwerte (Bestellungen, Gutschriften, Vertragsänderungen ab einem bestimmten Betrag)
- Rechtlich relevante Entscheidungen (Datenlöschung, Vertragsklauseln, Compliance-Themen)
- Unsicherheit des Agenten (Confidence-Score unter einem definierten Wert)
- Ausnahmen vom Normalfall (unbekannte Eingaben, Edge Cases)
Der Human-in-the-Loop ist dabei kein Zeichen von Schwäche der KI, sondern ein bewusstes Architekturmuster. Bei EverBright setzen wir intern auf genau dieses Prinzip: Agenten erledigen die Routinearbeit, Menschen treffen die Entscheidungen mit hohem Impact.
Säule 4: Monitoring und Anomalieerkennung
Agenten in Produktion brauchen kontinuierliches Monitoring. Nicht nur “läuft der Agent noch?”, sondern “verhält sich der Agent noch wie erwartet?”.
Relevante Metriken für Agent-Monitoring:
- Erfolgsrate pro Aufgabentyp (sinkt sie plötzlich?)
- Durchschnittliche Bearbeitungszeit (steigt sie ohne erklärbaren Grund?)
- Eskalationsrate (steigt sie, deutet das auf Qualitätsprobleme hin)
- Tool-Nutzungsmuster (ruft der Agent plötzlich APIs auf, die er normalerweise nicht nutzt?)
- Feedback-Score der Ergebnisse (bewerten Menschen die Outputs schlechter?)
Anomalien in diesen Metriken sind Frühwarnsignale. Sie können auf Datenverschiebungen, Modell-Degradation oder Konfigurationsfehler hinweisen. Ein gutes Monitoring-Setup schlägt Alarm, bevor der Schaden entsteht.
EU AI Act und regulatorischer Kontext
Der EU AI Act, der ab 2026 schrittweise in Kraft tritt, klassifiziert KI-Systeme nach Risikoklassen. Viele Agentic-AI-Anwendungen fallen in die Kategorie “hohes Risiko”, sobald sie in Bereichen wie Personal, Kreditvergabe oder öffentliche Verwaltung eingesetzt werden. Das bedeutet konkret: Dokumentationspflichten, Risikobewertungen und menschliche Aufsicht sind keine optionalen Nice-to-haves, sondern gesetzliche Anforderungen.
Unternehmen, die jetzt ein Governance-Framework aufbauen, sind doppelt im Vorteil. Sie reduzieren operative Risiken und erfüllen gleichzeitig regulatorische Anforderungen, die in den nächsten Monaten verbindlich werden. Wer erst reagiert, wenn die Regulierung greift, hat deutlich mehr Aufwand.
Praktischer Einstieg: Governance in drei Schritten
Governance muss nicht als Mammutprojekt starten. Drei konkrete Schritte für den Anfang:
Schritt 1: Agent-Inventar erstellen. Welche KI-Agenten laufen bereits (auch inoffiziell)? Welche Tools nutzen sie? Wer hat sie eingerichtet? Häufig existieren in Unternehmen mehr Agenten als der IT-Abteilung bewusst ist, besonders wenn Teams eigenständig Tools wie ChatGPT, Copilot oder Custom GPTs nutzen.
Schritt 2: Risikobewertung pro Agent. Nicht jeder Agent braucht das gleiche Governance-Level. Ein interner Recherche-Agent ohne Schreibzugriff ist ein anderes Risiko als ein Agent, der Kundendaten verarbeitet und Entscheidungen trifft. Die Risikobewertung bestimmt den Governance-Aufwand.
Schritt 3: Minimale Guardrails implementieren. Berechtigungsmodell, Logging und einen Eskalationspfad für jeden Agent mit mittlerem oder hohem Risiko einrichten. Das ist kein Fullstack-Governance-Framework, aber eine solide Basis, auf der man aufbauen kann.
Fazit
Agentic AI verändert die Governance-Anforderungen grundlegend. Agenten, die eigenständig handeln, Tools nutzen und miteinander kommunizieren, brauchen Kontrolle auf einem anderen Level als klassische ML-Modelle. Die gute Nachricht: Die Bausteine (Berechtigungsmodelle, strukturiertes Logging, Eskalationspfade, Monitoring) sind technisch nicht komplex. Die Herausforderung liegt darin, sie konsequent umzusetzen, bevor der Agent-Sprawl unkontrollierbar wird.
Wer KI-Agenten produktiv einsetzen will, braucht Governance von Tag eins. Mehr zu unseren KI-Services oder direkt einen Termin vereinbaren →
Häufige Fragen
Was ist der Unterschied zwischen KI-Governance und Agentic-AI-Governance?
Klassische KI-Governance prüft Trainingsdaten, Output-Qualität und Bias. Agentic AI erfordert mehr: Agenten treffen Entscheidungsketten, nutzen externe Tools und interagieren mit Systemen. Deshalb braucht es zusätzlich Berechtigungsmodelle, Eskalationspfade, Entscheidungs-Logging und Anomalieerkennung auf operativer Ebene.
Wann brauchen wir ein Governance-Framework?
Von Tag eins, nicht erst später. Governance muss nicht als Mammutprojekt starten. Ein minimales Framework mit Agent-Inventar, Risikobewertung und Guardrails reicht zum Anfang. Ohne Governance wächst der Agent-Sprawl schnell unkontrollierbar und bringt Sicherheitsrisiken mit sich.
Was bedeutet “Human-in-the-Loop” konkret?
Human-in-the-Loop heißt nicht, dass Menschen jede Entscheidung absegnen müssen. Es bedeutet klare Eskalationskriterien: Finanzielle Schwellenwerte, rechtlich relevante Entscheidungen, ungewöhnlich niedrige Confidence-Scores oder Edge Cases. Der Mensch entscheidet dann, der Agent übernimmt Routinearbeit.
Welche Metriken sollten wir für Agent-Monitoring überwachen?
Wichtig sind: Erfolgsrate pro Aufgabentyp, durchschnittliche Bearbeitungszeit, Eskalationsrate, Tool-Nutzungsmuster und Feedback-Scores. Anomalien in diesen Metriken sind Frühwarnsignale für Datenverschiebungen, Modell-Degradation oder Konfigurationsfehler.