Guardrails
Der Guardrails-Block validiert und schützt Ihre KI-Workflows, indem er Inhalte anhand mehrerer Validierungstypen überprüft. Stellen Sie die Datenqualität sicher, verhindern Sie Halluzinationen, erkennen Sie personenbezogene Daten und erzwingen Sie Formatanforderungen, bevor Inhalte durch Ihren Workflow fließen.

Übersicht
Mit dem Guardrails-Block können Sie:
JSON-Struktur validieren: Stellen Sie sicher, dass LLM-Ausgaben gültiges JSON sind, bevor sie geparst werden
Regex-Muster abgleichen: Überprüfen Sie, ob Inhalte bestimmten Formaten entsprechen (E-Mails, Telefonnummern, URLs usw.)
Halluzinationen erkennen: Nutzen Sie RAG + LLM-Scoring, um KI-Ausgaben anhand von Wissensdatenbankinhalten zu validieren
PII erkennen: Identifizieren und optional maskieren Sie personenbezogene Daten über mehr als 40 Entitätstypen hinweg
Validierungstypen
JSON-Validierung
Überprüft, ob Inhalte korrekt formatiertes JSON sind. Perfekt, um sicherzustellen, dass strukturierte LLM-Ausgaben sicher geparst werden können.
Anwendungsfälle:
- Validieren von JSON-Antworten aus Agent-Blöcken vor dem Parsen
- Sicherstellen, dass API-Payloads korrekt formatiert sind
- Überprüfen der Integrität strukturierter Daten
Output:
passed
:true
wenn gültiges JSON, sonstfalse
error
: Fehlermeldung bei fehlgeschlagener Validierung (z.B. "Invalid JSON: Unexpected token...")
Regex-Validierung
Überprüft, ob Inhalte einem bestimmten regulären Ausdrucksmuster entsprechen.
Anwendungsfälle:
- Validieren von E-Mail-Adressen
- Überprüfen von Telefonnummernformaten
- Verifizieren von URLs oder benutzerdefinierten Kennungen
- Durchsetzen spezifischer Textmuster
Konfiguration:
- Regex-Muster: Der reguläre Ausdruck, der abgeglichen werden soll (z.B.
^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
für E-Mails)
Output:
passed
:true
wenn der Inhalt dem Muster entspricht,false
andernfallserror
: Fehlermeldung bei fehlgeschlagener Validierung
Halluzinationserkennung
Verwendet Retrieval-Augmented Generation (RAG) mit LLM-Bewertung, um zu erkennen, wann KI-generierte Inhalte im Widerspruch zu Ihrer Wissensdatenbank stehen oder nicht darin begründet sind.
Funktionsweise:
- Durchsucht Ihre Wissensdatenbank nach relevantem Kontext
- Sendet sowohl die KI-Ausgabe als auch den abgerufenen Kontext an ein LLM
- LLM weist einen Konfidenzwert zu (Skala 0-10)
- 0 = Vollständige Halluzination (völlig unbegründet)
- 10 = Vollständig fundiert (komplett durch Wissensdatenbank gestützt)
- Validierung besteht, wenn der Wert ≥ Schwellenwert (Standard: 3)
Konfiguration:
- Wissensdatenbank: Auswahl aus Ihren vorhandenen Wissensdatenbanken
- Modell: LLM für die Bewertung wählen (erfordert starkes Reasoning - GPT-4o, Claude 3.7 Sonnet empfohlen)
- API-Schlüssel: Authentifizierung für den ausgewählten LLM-Anbieter (automatisch ausgeblendet für gehostete/Ollama-Modelle)
- Konfidenz-Schwellenwert: Mindestwert zum Bestehen (0-10, Standard: 3)
- Top K (Erweitert): Anzahl der abzurufenden Wissensdatenbank-Chunks (Standard: 10)
Output:
passed
:true
wenn Konfidenzwert ≥ Schwellenwertscore
: Konfidenzwert (0-10)reasoning
: Erklärung des LLM für den Werterror
: Fehlermeldung bei fehlgeschlagener Validierung
Anwendungsfälle:
- Validierung von Agent-Antworten anhand der Dokumentation
- Sicherstellen, dass Kundenservice-Antworten sachlich korrekt sind
- Überprüfen, ob generierte Inhalte mit dem Quellmaterial übereinstimmen
- Qualitätskontrolle für RAG-Anwendungen
PII-Erkennung
Erkennt personenbezogene Daten mit Microsoft Presidio. Unterstützt über 40 Entitätstypen in mehreren Ländern und Sprachen.
Funktionsweise:
- Scannt Inhalte nach PII-Entitäten mittels Mustererkennung und NLP
- Gibt erkannte Entitäten mit Positionen und Konfidenzwerten zurück
- Maskiert optional erkannte PII in der Ausgabe
Konfiguration:
- Zu erkennende PII-Typen: Auswahl aus gruppierten Kategorien über Modal-Selektor
- Allgemein: Personenname, E-Mail, Telefon, Kreditkarte, IP-Adresse usw.
- USA: SSN, Führerschein, Reisepass usw.
- UK: NHS-Nummer, Sozialversicherungsnummer
- Spanien: NIF, NIE, CIF
- Italien: Steuernummer, Führerschein, Umsatzsteuer-ID
- Polen: PESEL, NIP, REGON
- Singapur: NRIC/FIN, UEN
- Australien: ABN, ACN, TFN, Medicare
- Indien: Aadhaar, PAN, Reisepass, Wählernummer
- Modus:
- Erkennen: Nur PII identifizieren (Standard)
- Maskieren: Erkannte PII durch maskierte Werte ersetzen
- Sprache: Erkennungssprache (Standard: Englisch)
Ausgabe:
passed
:false
wenn ausgewählte PII-Typen erkannt werdendetectedEntities
: Array erkannter PII mit Typ, Position und KonfidenzmaskedText
: Inhalt mit maskierter PII (nur wenn Modus = "Mask")error
: Fehlermeldung, wenn die Validierung fehlschlägt
Anwendungsfälle:
- Blockieren von Inhalten mit sensiblen persönlichen Informationen
- Maskieren von PII vor der Protokollierung oder Speicherung von Daten
- Einhaltung von DSGVO, HIPAA und anderen Datenschutzbestimmungen
- Bereinigung von Benutzereingaben vor der Verarbeitung
Konfiguration
Zu validierender Inhalt
Der zu validierende Eingabeinhalt. Dieser stammt typischerweise aus:
- Ausgaben von Agent-Blöcken:
<agent.content>
- Ergebnisse von Funktionsblöcken:
<function.output>
- API-Antworten:
<api.output>
- Jede andere Blockausgabe
Validierungstyp
Wählen Sie aus vier Validierungstypen:
- Gültiges JSON: Prüfen, ob der Inhalt korrekt formatiertes JSON ist
- Regex-Übereinstimmung: Überprüfen, ob der Inhalt einem Regex-Muster entspricht
- Halluzinationsprüfung: Validierung gegen Wissensdatenbank mit LLM-Bewertung
- PII-Erkennung: Erkennung und optional Maskierung personenbezogener Daten
Ausgaben
Alle Validierungstypen liefern zurück:
<guardrails.passed>
: Boolean, der angibt, ob die Validierung erfolgreich war<guardrails.validationType>
: Die Art der durchgeführten Validierung<guardrails.input>
: Die ursprüngliche Eingabe, die validiert wurde<guardrails.error>
: Fehlermeldung, wenn die Validierung fehlgeschlagen ist (optional)
Zusätzliche Ausgaben nach Typ:
Halluzinationsprüfung:
<guardrails.score>
: Konfidenzwert (0-10)<guardrails.reasoning>
: Erklärung des LLM
PII-Erkennung:
<guardrails.detectedEntities>
: Array erkannter PII-Entitäten<guardrails.maskedText>
: Inhalt mit maskierter PII (wenn Modus = "Mask")
Beispielanwendungsfälle
JSON vor dem Parsen validieren
Szenario: Sicherstellen, dass die Agent-Ausgabe gültiges JSON ist
- Agent generiert strukturierte JSON-Antwort
- Guardrails validiert das JSON-Format
- Bedingungsblock prüft
<guardrails.passed>
- Bei Erfolg → Daten parsen und verwenden, Bei Fehler → Wiederholen oder Fehler behandeln
Halluzinationen verhindern
Szenario: Validierung von Kundendienstantworten
- Agent generiert Antwort auf Kundenfrage
- Guardrails prüft gegen die Wissensdatenbank der Support-Dokumentation
- Wenn Konfidenzwert ≥ 3 → Antwort senden
- Wenn Konfidenzwert < 3 → Für manuelle Überprüfung markieren
PII in Benutzereingaben blockieren
Szenario: Bereinigung von benutzergenerierten Inhalten
- Benutzer reicht Formular mit Textinhalt ein
- Guardrails erkennt PII (E-Mails, Telefonnummern, Sozialversicherungsnummern usw.)
- Bei erkannter PII → Einreichung ablehnen oder sensible Daten maskieren
- Ohne PII → Normal verarbeiten
E-Mail-Format validieren
Szenario: E-Mail-Adressformat überprüfen
- Agent extrahiert E-Mail aus Text
- Guardrails validiert mit Regex-Muster
- Bei Gültigkeit → E-Mail für Benachrichtigung verwenden
- Bei Ungültigkeit → Korrektur anfordern
Best Practices
- Verkettung mit Condition-Blöcken: Verwende
<guardrails.passed>
um Workflow-Logik basierend auf Validierungsergebnissen zu verzweigen - JSON-Validierung vor dem Parsen verwenden: Validiere immer die JSON-Struktur, bevor du versuchst, LLM-Ausgaben zu parsen
- Passende PII-Typen auswählen: Wähle nur die PII-Entitätstypen aus, die für deinen Anwendungsfall relevant sind, um bessere Leistung zu erzielen
- Vernünftige Konfidenz-Schwellenwerte festlegen: Passe für die Halluzinationserkennung den Schwellenwert basierend auf deinen Genauigkeitsanforderungen an (höher = strenger)
- Starke Modelle für Halluzinationserkennung verwenden: GPT-4o oder Claude 3.7 Sonnet bieten genauere Konfidenz-Bewertungen
- PII für Logging maskieren: Verwende den "Mask"-Modus, wenn du Inhalte protokollieren oder speichern musst, die PII enthalten könnten
- Regex-Muster testen: Validiere deine Regex-Muster gründlich, bevor du sie in der Produktion einsetzt
- Validierungsfehler überwachen: Verfolge
<guardrails.error>
Nachrichten, um häufige Validierungsprobleme zu identifizieren
Guardrails-Validierung erfolgt synchron in deinem Workflow. Für die Halluzinationserkennung solltest du schnellere Modelle (wie GPT-4o-mini) wählen, wenn Latenz kritisch ist.