HyperAIHyperAI

Command Palette

Search for a command to run...

Sichere Reasoning Traces: Messung und Minderung von Chain-of-Thought-Lecks in LLMs

Patrick Ahrend Tobias Eder Xiyang Yang Zhiyi Pan Georg Groh

Zusammenfassung

Chain-of-Thought (CoT)-Prompting verbessert die Schlussfolgerungsfähigkeiten von Large Language Models (LLMs), kann jedoch das Datenschutzrisiko erhöhen, indem es personenbezogene Daten (Personally Identifiable Information, PII) aus dem Prompt in die Denkpfade und Ausgaben zurückführt – selbst unter Richtlinien, die das Modell anweisen, PII nicht zu wiederholen. Wir untersuchen diese direkte, zur Inferenzzeit auftretende PII-Leckage mithilfe eines modellagnostischen Rahmens, der (i) Leckage als gewichtete, auf Token-Ebene definierte Ereignisse über 11 PII-Kategorien hinweg beschreibt, (ii) Leckage-Kurven als Funktion des zulässigen CoT-Budgets ableitet und (iii) Open-Source- und Closed-Source-Modellfamilien auf einem strukturierten PII-Datensatz mit hierarchischer Risikotaxonomie vergleicht. Unsere Ergebnisse zeigen, dass CoT die Leckage konsistent erhöht, insbesondere für Hochrisiko-Kategorien, und dass die Leckage stark von der Modellfamilie sowie vom Budget abhängt. Eine Erhöhung des Schlussfolgerungsbudgets kann die Leckage je nach Basismodell entweder verstärken oder abschwächen. Anschließend evaluieren wir leichte Gatekeeper-Methoden zur Laufzeit: einen regelbasierten Detektor, einen TF-IDF- und logistischen Regressions-basierten Klassifikator, ein GLiNER-basiertes Named-Entity-Recognition (NER)-Modell sowie einen „LLM-as-a-Judge"-Ansatz. Die Bewertung erfolgt mittels risiko-gewichteter F1-Maße, Macro-F1 und Recall. Keine einzelne Methode dominiert über alle Modelle oder Budgets hinweg; dies motiviert hybride, stiladaptierte Gatekeeping-Richtlinien, die Nutzen und Risiko unter einem gemeinsamen, reproduzierbaren Protokoll ausbalancieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp