Command Palette
Search for a command to run...
Sichere Reasoning Traces: Messung und Minderung von Chain-of-Thought-Lecks in LLMs
Sichere Reasoning Traces: Messung und Minderung von Chain-of-Thought-Lecks in LLMs
Patrick Ahrend Tobias Eder Xiyang Yang Zhiyi Pan Georg Groh
Zusammenfassung
Chain-of-Thought (CoT)-Prompting verbessert die Schlussfolgerungsfähigkeiten von Large Language Models (LLMs), kann jedoch das Datenschutzrisiko erhöhen, indem es personenbezogene Daten (Personally Identifiable Information, PII) aus dem Prompt in die Denkpfade und Ausgaben zurückführt – selbst unter Richtlinien, die das Modell anweisen, PII nicht zu wiederholen. Wir untersuchen diese direkte, zur Inferenzzeit auftretende PII-Leckage mithilfe eines modellagnostischen Rahmens, der (i) Leckage als gewichtete, auf Token-Ebene definierte Ereignisse über 11 PII-Kategorien hinweg beschreibt, (ii) Leckage-Kurven als Funktion des zulässigen CoT-Budgets ableitet und (iii) Open-Source- und Closed-Source-Modellfamilien auf einem strukturierten PII-Datensatz mit hierarchischer Risikotaxonomie vergleicht. Unsere Ergebnisse zeigen, dass CoT die Leckage konsistent erhöht, insbesondere für Hochrisiko-Kategorien, und dass die Leckage stark von der Modellfamilie sowie vom Budget abhängt. Eine Erhöhung des Schlussfolgerungsbudgets kann die Leckage je nach Basismodell entweder verstärken oder abschwächen. Anschließend evaluieren wir leichte Gatekeeper-Methoden zur Laufzeit: einen regelbasierten Detektor, einen TF-IDF- und logistischen Regressions-basierten Klassifikator, ein GLiNER-basiertes Named-Entity-Recognition (NER)-Modell sowie einen „LLM-as-a-Judge"-Ansatz. Die Bewertung erfolgt mittels risiko-gewichteter F1-Maße, Macro-F1 und Recall. Keine einzelne Methode dominiert über alle Modelle oder Budgets hinweg; dies motiviert hybride, stiladaptierte Gatekeeping-Richtlinien, die Nutzen und Risiko unter einem gemeinsamen, reproduzierbaren Protokoll ausbalancieren.