Guardrails

Der Guardrails-Block validiert und schützt Ihre KI-Workflows, indem er Inhalte anhand mehrerer Validierungstypen überprüft. Stellen Sie die Datenqualität sicher, verhindern Sie Halluzinationen, erkennen Sie personenbezogene Daten und erzwingen Sie Formatanforderungen, bevor Inhalte durch Ihren Workflow fließen.

Übersicht

Mit dem Guardrails-Block können Sie:

JSON-Struktur validieren: Stellen Sie sicher, dass LLM-Ausgaben gültiges JSON sind, bevor sie geparst werden

Regex-Muster abgleichen: Überprüfen Sie, ob Inhalte bestimmten Formaten entsprechen (E-Mails, Telefonnummern, URLs usw.)

Halluzinationen erkennen: Nutzen Sie RAG + LLM-Scoring, um KI-Ausgaben anhand von Wissensdatenbankinhalten zu validieren

PII erkennen: Identifizieren und optional maskieren Sie personenbezogene Daten über mehr als 40 Entitätstypen hinweg

Validierungstypen

JSON-Validierung

Überprüft, ob Inhalte korrekt formatiertes JSON sind. Perfekt, um sicherzustellen, dass strukturierte LLM-Ausgaben sicher geparst werden können.

Anwendungsfälle:

Validieren von JSON-Antworten aus Agent-Blöcken vor dem Parsen
Sicherstellen, dass API-Payloads korrekt formatiert sind
Überprüfen der Integrität strukturierter Daten

Output:

passed: true wenn gültiges JSON, sonst false
error: Fehlermeldung bei fehlgeschlagener Validierung (z.B. "Invalid JSON: Unexpected token...")

Regex-Validierung

Überprüft, ob Inhalte einem bestimmten regulären Ausdrucksmuster entsprechen.

Anwendungsfälle:

Validieren von E-Mail-Adressen
Überprüfen von Telefonnummernformaten
Verifizieren von URLs oder benutzerdefinierten Kennungen
Durchsetzen spezifischer Textmuster

Konfiguration:

Regex-Muster: Der reguläre Ausdruck, der abgeglichen werden soll (z.B. ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$ für E-Mails)

Output:

passed: true wenn der Inhalt dem Muster entspricht, false andernfalls
error: Fehlermeldung bei fehlgeschlagener Validierung

Halluzinationserkennung

Verwendet Retrieval-Augmented Generation (RAG) mit LLM-Bewertung, um zu erkennen, wann KI-generierte Inhalte im Widerspruch zu Ihrer Wissensdatenbank stehen oder nicht darin begründet sind.

Funktionsweise:

Durchsucht Ihre Wissensdatenbank nach relevantem Kontext
Sendet sowohl die KI-Ausgabe als auch den abgerufenen Kontext an ein LLM
LLM weist einen Konfidenzwert zu (Skala 0-10)
- 0 = Vollständige Halluzination (völlig unbegründet)
- 10 = Vollständig fundiert (komplett durch Wissensdatenbank gestützt)
Validierung besteht, wenn der Wert ≥ Schwellenwert (Standard: 3)

Konfiguration:

Wissensdatenbank: Auswahl aus Ihren vorhandenen Wissensdatenbanken
Modell: LLM für die Bewertung wählen (erfordert starkes Reasoning - GPT-4o, Claude 3.7 Sonnet empfohlen)
API-Schlüssel: Authentifizierung für den ausgewählten LLM-Anbieter (automatisch ausgeblendet für gehostete/Ollama-Modelle)
Konfidenz-Schwellenwert: Mindestwert zum Bestehen (0-10, Standard: 3)
Top K (Erweitert): Anzahl der abzurufenden Wissensdatenbank-Chunks (Standard: 10)

Output:

passed: true wenn Konfidenzwert ≥ Schwellenwert
score: Konfidenzwert (0-10)
reasoning: Erklärung des LLM für den Wert
error: Fehlermeldung bei fehlgeschlagener Validierung

Anwendungsfälle:

Validierung von Agent-Antworten anhand der Dokumentation
Sicherstellen, dass Kundenservice-Antworten sachlich korrekt sind
Überprüfen, ob generierte Inhalte mit dem Quellmaterial übereinstimmen
Qualitätskontrolle für RAG-Anwendungen

PII-Erkennung

Erkennt personenbezogene Daten mit Microsoft Presidio. Unterstützt über 40 Entitätstypen in mehreren Ländern und Sprachen.

Funktionsweise:

Scannt Inhalte nach PII-Entitäten mittels Mustererkennung und NLP
Gibt erkannte Entitäten mit Positionen und Konfidenzwerten zurück
Maskiert optional erkannte PII in der Ausgabe

Konfiguration:

Zu erkennende PII-Typen: Auswahl aus gruppierten Kategorien über Modal-Selektor
- Allgemein: Personenname, E-Mail, Telefon, Kreditkarte, IP-Adresse usw.
- USA: SSN, Führerschein, Reisepass usw.
- UK: NHS-Nummer, Sozialversicherungsnummer
- Spanien: NIF, NIE, CIF
- Italien: Steuernummer, Führerschein, Umsatzsteuer-ID
- Polen: PESEL, NIP, REGON
- Singapur: NRIC/FIN, UEN
- Australien: ABN, ACN, TFN, Medicare
- Indien: Aadhaar, PAN, Reisepass, Wählernummer
Modus:
- Erkennen: Nur PII identifizieren (Standard)
- Maskieren: Erkannte PII durch maskierte Werte ersetzen
Sprache: Erkennungssprache (Standard: Englisch)

Ausgabe:

passed: false wenn ausgewählte PII-Typen erkannt werden
detectedEntities: Array erkannter PII mit Typ, Position und Konfidenz
maskedText: Inhalt mit maskierter PII (nur wenn Modus = "Mask")
error: Fehlermeldung, wenn die Validierung fehlschlägt

Anwendungsfälle:

Blockieren von Inhalten mit sensiblen persönlichen Informationen
Maskieren von PII vor der Protokollierung oder Speicherung von Daten
Einhaltung von DSGVO, HIPAA und anderen Datenschutzbestimmungen
Bereinigung von Benutzereingaben vor der Verarbeitung

Konfiguration

Zu validierender Inhalt

Der zu validierende Eingabeinhalt. Dieser stammt typischerweise aus:

Ausgaben von Agent-Blöcken: <agent.content>
Ergebnisse von Funktionsblöcken: <function.output>
API-Antworten: <api.output>
Jede andere Blockausgabe

Validierungstyp

Wählen Sie aus vier Validierungstypen:

Gültiges JSON: Prüfen, ob der Inhalt korrekt formatiertes JSON ist
Regex-Übereinstimmung: Überprüfen, ob der Inhalt einem Regex-Muster entspricht
Halluzinationsprüfung: Validierung gegen Wissensdatenbank mit LLM-Bewertung
PII-Erkennung: Erkennung und optional Maskierung personenbezogener Daten

Ausgaben

Alle Validierungstypen liefern zurück:

<guardrails.passed>: Boolean, der angibt, ob die Validierung erfolgreich war
<guardrails.validationType>: Die Art der durchgeführten Validierung
<guardrails.input>: Die ursprüngliche Eingabe, die validiert wurde
<guardrails.error>: Fehlermeldung, wenn die Validierung fehlgeschlagen ist (optional)

Zusätzliche Ausgaben nach Typ:

Halluzinationsprüfung:

<guardrails.score>: Konfidenzwert (0-10)
<guardrails.reasoning>: Erklärung des LLM

PII-Erkennung:

<guardrails.detectedEntities>: Array erkannter PII-Entitäten
<guardrails.maskedText>: Inhalt mit maskierter PII (wenn Modus = "Mask")

Beispielanwendungsfälle

JSON vor dem Parsen validieren

Szenario: Sicherstellen, dass die Agent-Ausgabe gültiges JSON ist

Agent generiert strukturierte JSON-Antwort
Guardrails validiert das JSON-Format
Bedingungsblock prüft <guardrails.passed>
Bei Erfolg → Daten parsen und verwenden, Bei Fehler → Wiederholen oder Fehler behandeln

Halluzinationen verhindern

Szenario: Validierung von Kundendienstantworten

Agent generiert Antwort auf Kundenfrage
Guardrails prüft gegen die Wissensdatenbank der Support-Dokumentation
Wenn Konfidenzwert ≥ 3 → Antwort senden
Wenn Konfidenzwert < 3 → Für manuelle Überprüfung markieren

PII in Benutzereingaben blockieren

Szenario: Bereinigung von benutzergenerierten Inhalten

Benutzer reicht Formular mit Textinhalt ein
Guardrails erkennt PII (E-Mails, Telefonnummern, Sozialversicherungsnummern usw.)
Bei erkannter PII → Einreichung ablehnen oder sensible Daten maskieren
Ohne PII → Normal verarbeiten

E-Mail-Format validieren

Szenario: E-Mail-Adressformat überprüfen

Agent extrahiert E-Mail aus Text
Guardrails validiert mit Regex-Muster
Bei Gültigkeit → E-Mail für Benachrichtigung verwenden
Bei Ungültigkeit → Korrektur anfordern

Best Practices

Verkettung mit Condition-Blöcken: Verwende <guardrails.passed> um Workflow-Logik basierend auf Validierungsergebnissen zu verzweigen
JSON-Validierung vor dem Parsen verwenden: Validiere immer die JSON-Struktur, bevor du versuchst, LLM-Ausgaben zu parsen
Passende PII-Typen auswählen: Wähle nur die PII-Entitätstypen aus, die für deinen Anwendungsfall relevant sind, um bessere Leistung zu erzielen
Vernünftige Konfidenz-Schwellenwerte festlegen: Passe für die Halluzinationserkennung den Schwellenwert basierend auf deinen Genauigkeitsanforderungen an (höher = strenger)
Starke Modelle für Halluzinationserkennung verwenden: GPT-4o oder Claude 3.7 Sonnet bieten genauere Konfidenz-Bewertungen
PII für Logging maskieren: Verwende den "Mask"-Modus, wenn du Inhalte protokollieren oder speichern musst, die PII enthalten könnten
Regex-Muster testen: Validiere deine Regex-Muster gründlich, bevor du sie in der Produktion einsetzt
Validierungsfehler überwachen: Verfolge <guardrails.error> Nachrichten, um häufige Validierungsprobleme zu identifizieren

Guardrails-Validierung erfolgt synchron in deinem Workflow. Für die Halluzinationserkennung solltest du schnellere Modelle (wie GPT-4o-mini) wählen, wenn Latenz kritisch ist.

Guardrails

Szenario: Sicherstellen, dass die Agent-Ausgabe gültiges JSON ist

Szenario: Validierung von Kundendienstantworten

Szenario: Bereinigung von benutzergenerierten Inhalten

Szenario: E-Mail-Adressformat überprüfen

On this page