Command Palette
Search for a command to run...
より安全な推論トレース:LLM における Chain-of-Thought の漏洩の測定と軽減
より安全な推論トレース:LLM における Chain-of-Thought の漏洩の測定と軽減
Patrick Ahrend Tobias Eder Xiyang Yang Zhiyi Pan Georg Groh
概要
思考連鎖(Chain-of-Thought; CoT)プロンプティングは大規模言語モデル(LLM)の推論能力を向上させる一方で、モデルに対して個人識別情報(PII)の再提示を禁止するポリシーが適用されていても、プロンプトに含まれる PII が推論過程(推論トレース)や出力に再露出するリスクを高める可能性がある。本研究では、モデルに依存しないフレームワークを用いて、推論時の直接的な PII 漏洩を評価した。具体的には、(i) 11 種類の PII カテゴリにわたる、リスク重み付けされたトークンレベルの事象として漏洩を定義し、(ii) 許可される CoT バジェット(推論予算)の関数として漏洩曲線を追跡し、(iii) 階層的リスク分類体系を備えた構造化された PII データセットを用いて、オープンソースモデルファミリーとクローズドソースモデルファミリーを比較した。その結果、CoT は特に高リスクカテゴリにおいて漏洩を一貫して増大させること、また漏洩はモデルファミリーとバジェットに強く依存することが明らかになった。さらに、ベースモデルによっては推論バベットを増加させることで漏洩が増幅される場合もあれば、逆に減衰する場合もあることも示された。次に、リスク重み付け F1 スコア、マクロ F1 スコア、および再現率(recall)を用いて、軽量な推論時ゲートキーパーをベンチマーク評価した。対象とした手法には、ルールベースの検出器、TF-IDF とロジスティック回帰を組み合わせた分類器、GLiNER ベースの固有表現認識(NER)モデル、そして LLM を審判役とする「LLM-as-a-judge」が含まれる。いずれの単一手法も、すべてのモデルおよびバジェットにおいて優位性を示すことはなく、汎用的かつ再現可能なプロトコルの下で有用性とリスクのバランスを取るため、ハイブリッドかつスタイル適応型のゲートキーピングポリシーの必要性が示唆された。