Ekinox
Blocks

Guardrails

Der Guardrails-Block validiert und schützt Ihre KI-Workflows, indem er Inhalte anhand mehrerer Validierungstypen überprüft. Stellen Sie die Datenqualität sicher, verhindern Sie Halluzinationen, erkennen Sie personenbezogene Daten und erzwingen Sie Formatanforderungen, bevor Inhalte durch Ihren Workflow fließen.

Guardrails Block

Übersicht

Mit dem Guardrails-Block können Sie:

JSON-Struktur validieren: Stellen Sie sicher, dass LLM-Ausgaben gültiges JSON sind, bevor sie geparst werden

Regex-Muster abgleichen: Überprüfen Sie, ob Inhalte bestimmten Formaten entsprechen (E-Mails, Telefonnummern, URLs usw.)

Halluzinationen erkennen: Nutzen Sie RAG + LLM-Scoring, um KI-Ausgaben anhand von Wissensdatenbankinhalten zu validieren

PII erkennen: Identifizieren und optional maskieren Sie personenbezogene Daten über mehr als 40 Entitätstypen hinweg

Validierungstypen

JSON-Validierung

Überprüft, ob Inhalte korrekt formatiertes JSON sind. Perfekt, um sicherzustellen, dass strukturierte LLM-Ausgaben sicher geparst werden können.

Anwendungsfälle:

  • Validieren von JSON-Antworten aus Agent-Blöcken vor dem Parsen
  • Sicherstellen, dass API-Payloads korrekt formatiert sind
  • Überprüfen der Integrität strukturierter Daten

Output:

  • passed: true wenn gültiges JSON, sonst false
  • error: Fehlermeldung bei fehlgeschlagener Validierung (z.B. "Invalid JSON: Unexpected token...")

Regex-Validierung

Überprüft, ob Inhalte einem bestimmten regulären Ausdrucksmuster entsprechen.

Anwendungsfälle:

  • Validieren von E-Mail-Adressen
  • Überprüfen von Telefonnummernformaten
  • Verifizieren von URLs oder benutzerdefinierten Kennungen
  • Durchsetzen spezifischer Textmuster

Konfiguration:

  • Regex-Muster: Der reguläre Ausdruck, der abgeglichen werden soll (z.B. ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$ für E-Mails)

Output:

  • passed: true wenn der Inhalt dem Muster entspricht, false andernfalls
  • error: Fehlermeldung bei fehlgeschlagener Validierung

Halluzinationserkennung

Verwendet Retrieval-Augmented Generation (RAG) mit LLM-Bewertung, um zu erkennen, wann KI-generierte Inhalte im Widerspruch zu Ihrer Wissensdatenbank stehen oder nicht darin begründet sind.

Funktionsweise:

  1. Durchsucht Ihre Wissensdatenbank nach relevantem Kontext
  2. Sendet sowohl die KI-Ausgabe als auch den abgerufenen Kontext an ein LLM
  3. LLM weist einen Konfidenzwert zu (Skala 0-10)
    • 0 = Vollständige Halluzination (völlig unbegründet)
    • 10 = Vollständig fundiert (komplett durch Wissensdatenbank gestützt)
  4. Validierung besteht, wenn der Wert ≥ Schwellenwert (Standard: 3)

Konfiguration:

  • Wissensdatenbank: Auswahl aus Ihren vorhandenen Wissensdatenbanken
  • Modell: LLM für die Bewertung wählen (erfordert starkes Reasoning - GPT-4o, Claude 3.7 Sonnet empfohlen)
  • API-Schlüssel: Authentifizierung für den ausgewählten LLM-Anbieter (automatisch ausgeblendet für gehostete/Ollama-Modelle)
  • Konfidenz-Schwellenwert: Mindestwert zum Bestehen (0-10, Standard: 3)
  • Top K (Erweitert): Anzahl der abzurufenden Wissensdatenbank-Chunks (Standard: 10)

Output:

  • passed: true wenn Konfidenzwert ≥ Schwellenwert
  • score: Konfidenzwert (0-10)
  • reasoning: Erklärung des LLM für den Wert
  • error: Fehlermeldung bei fehlgeschlagener Validierung

Anwendungsfälle:

  • Validierung von Agent-Antworten anhand der Dokumentation
  • Sicherstellen, dass Kundenservice-Antworten sachlich korrekt sind
  • Überprüfen, ob generierte Inhalte mit dem Quellmaterial übereinstimmen
  • Qualitätskontrolle für RAG-Anwendungen

PII-Erkennung

Erkennt personenbezogene Daten mit Microsoft Presidio. Unterstützt über 40 Entitätstypen in mehreren Ländern und Sprachen.

Funktionsweise:

  1. Scannt Inhalte nach PII-Entitäten mittels Mustererkennung und NLP
  2. Gibt erkannte Entitäten mit Positionen und Konfidenzwerten zurück
  3. Maskiert optional erkannte PII in der Ausgabe

Konfiguration:

  • Zu erkennende PII-Typen: Auswahl aus gruppierten Kategorien über Modal-Selektor
    • Allgemein: Personenname, E-Mail, Telefon, Kreditkarte, IP-Adresse usw.
    • USA: SSN, Führerschein, Reisepass usw.
    • UK: NHS-Nummer, Sozialversicherungsnummer
    • Spanien: NIF, NIE, CIF
    • Italien: Steuernummer, Führerschein, Umsatzsteuer-ID
    • Polen: PESEL, NIP, REGON
    • Singapur: NRIC/FIN, UEN
    • Australien: ABN, ACN, TFN, Medicare
    • Indien: Aadhaar, PAN, Reisepass, Wählernummer
  • Modus:
    • Erkennen: Nur PII identifizieren (Standard)
    • Maskieren: Erkannte PII durch maskierte Werte ersetzen
  • Sprache: Erkennungssprache (Standard: Englisch)

Ausgabe:

  • passed: false wenn ausgewählte PII-Typen erkannt werden
  • detectedEntities: Array erkannter PII mit Typ, Position und Konfidenz
  • maskedText: Inhalt mit maskierter PII (nur wenn Modus = "Mask")
  • error: Fehlermeldung, wenn die Validierung fehlschlägt

Anwendungsfälle:

  • Blockieren von Inhalten mit sensiblen persönlichen Informationen
  • Maskieren von PII vor der Protokollierung oder Speicherung von Daten
  • Einhaltung von DSGVO, HIPAA und anderen Datenschutzbestimmungen
  • Bereinigung von Benutzereingaben vor der Verarbeitung

Konfiguration

Zu validierender Inhalt

Der zu validierende Eingabeinhalt. Dieser stammt typischerweise aus:

  • Ausgaben von Agent-Blöcken: <agent.content>
  • Ergebnisse von Funktionsblöcken: <function.output>
  • API-Antworten: <api.output>
  • Jede andere Blockausgabe

Validierungstyp

Wählen Sie aus vier Validierungstypen:

  • Gültiges JSON: Prüfen, ob der Inhalt korrekt formatiertes JSON ist
  • Regex-Übereinstimmung: Überprüfen, ob der Inhalt einem Regex-Muster entspricht
  • Halluzinationsprüfung: Validierung gegen Wissensdatenbank mit LLM-Bewertung
  • PII-Erkennung: Erkennung und optional Maskierung personenbezogener Daten

Ausgaben

Alle Validierungstypen liefern zurück:

  • <guardrails.passed>: Boolean, der angibt, ob die Validierung erfolgreich war
  • <guardrails.validationType>: Die Art der durchgeführten Validierung
  • <guardrails.input>: Die ursprüngliche Eingabe, die validiert wurde
  • <guardrails.error>: Fehlermeldung, wenn die Validierung fehlgeschlagen ist (optional)

Zusätzliche Ausgaben nach Typ:

Halluzinationsprüfung:

  • <guardrails.score>: Konfidenzwert (0-10)
  • <guardrails.reasoning>: Erklärung des LLM

PII-Erkennung:

  • <guardrails.detectedEntities>: Array erkannter PII-Entitäten
  • <guardrails.maskedText>: Inhalt mit maskierter PII (wenn Modus = "Mask")

Beispielanwendungsfälle

JSON vor dem Parsen validieren

Szenario: Sicherstellen, dass die Agent-Ausgabe gültiges JSON ist

  1. Agent generiert strukturierte JSON-Antwort
  2. Guardrails validiert das JSON-Format
  3. Bedingungsblock prüft <guardrails.passed>
  4. Bei Erfolg → Daten parsen und verwenden, Bei Fehler → Wiederholen oder Fehler behandeln

Halluzinationen verhindern

Szenario: Validierung von Kundendienstantworten

  1. Agent generiert Antwort auf Kundenfrage
  2. Guardrails prüft gegen die Wissensdatenbank der Support-Dokumentation
  3. Wenn Konfidenzwert ≥ 3 → Antwort senden
  4. Wenn Konfidenzwert < 3 → Für manuelle Überprüfung markieren

PII in Benutzereingaben blockieren

Szenario: Bereinigung von benutzergenerierten Inhalten

  1. Benutzer reicht Formular mit Textinhalt ein
  2. Guardrails erkennt PII (E-Mails, Telefonnummern, Sozialversicherungsnummern usw.)
  3. Bei erkannter PII → Einreichung ablehnen oder sensible Daten maskieren
  4. Ohne PII → Normal verarbeiten

E-Mail-Format validieren

Szenario: E-Mail-Adressformat überprüfen

  1. Agent extrahiert E-Mail aus Text
  2. Guardrails validiert mit Regex-Muster
  3. Bei Gültigkeit → E-Mail für Benachrichtigung verwenden
  4. Bei Ungültigkeit → Korrektur anfordern

Best Practices

  • Verkettung mit Condition-Blöcken: Verwende <guardrails.passed> um Workflow-Logik basierend auf Validierungsergebnissen zu verzweigen
  • JSON-Validierung vor dem Parsen verwenden: Validiere immer die JSON-Struktur, bevor du versuchst, LLM-Ausgaben zu parsen
  • Passende PII-Typen auswählen: Wähle nur die PII-Entitätstypen aus, die für deinen Anwendungsfall relevant sind, um bessere Leistung zu erzielen
  • Vernünftige Konfidenz-Schwellenwerte festlegen: Passe für die Halluzinationserkennung den Schwellenwert basierend auf deinen Genauigkeitsanforderungen an (höher = strenger)
  • Starke Modelle für Halluzinationserkennung verwenden: GPT-4o oder Claude 3.7 Sonnet bieten genauere Konfidenz-Bewertungen
  • PII für Logging maskieren: Verwende den "Mask"-Modus, wenn du Inhalte protokollieren oder speichern musst, die PII enthalten könnten
  • Regex-Muster testen: Validiere deine Regex-Muster gründlich, bevor du sie in der Produktion einsetzt
  • Validierungsfehler überwachen: Verfolge <guardrails.error> Nachrichten, um häufige Validierungsprobleme zu identifizieren

Guardrails-Validierung erfolgt synchron in deinem Workflow. Für die Halluzinationserkennung solltest du schnellere Modelle (wie GPT-4o-mini) wählen, wenn Latenz kritisch ist.

Guardrails