18 小时前

摘要

思维链（Chain-of-Thought, CoT）提示虽能提升大语言模型（LLM）的推理能力，但即便在模型被明确指令不得复述个人可识别信息（PII）的政策下，仍可能将提示中的 PII 重新暴露于推理轨迹和输出中，从而加剧隐私泄露风险。本研究采用一种模型无关的框架，对推理阶段的直接 PII 泄露进行评估：（i）将泄露定义为跨 11 类 PII 的、经风险加权的 token 级事件；（ii）刻画泄露曲线随允许 CoT 预算变化的函数关系；（iii）在具有分层风险分类的结构化 PII 数据集上，对比开源与闭源模型家族的泄露表现。研究发现，CoT 会系统性提升泄露水平，尤其在高风险类别中更为显著；且泄露程度高度依赖于模型家族与预算设置。增加推理预算对不同基座模型可能产生放大或抑制泄露的相反效应。随后，本研究对四种轻量级推理阶段“守门员”机制进行了基准测试：基于规则的检测器、TF-IDF 结合逻辑回归的分类器、基于 GLiNER 的命名实体识别（NER）模型，以及“以 LLM 为裁判”（LLM-as-a-judge）方法，评估指标包括风险加权的 F1 分数、宏平均 F1（Macro-F1）和召回率。结果表明，没有任何单一方法在所有模型或预算设置下均占优，因此亟需构建混合式、风格自适应的守门策略，在统一的、可复现的协议下实现效用与风险的有效平衡。

源 PDF