Command Palette
Search for a command to run...
大语言模型的上下文水印
大语言模型的上下文水印
Yepeng Liu Xuandong Zhao Christopher Kruegel Dawn Song Yuheng Bu
摘要
随着大语言模型(LLMs)在敏感场景中的应用日益广泛,确保 AI 生成文本的可追溯性与责任归属的水印技术需求愈发迫切。然而,现有大多数水印方法均需访问解码过程,从而限制了其在现实场景中的适用性。一个典型示例是学术同行评审中不诚实审稿人对 LLMs 的滥用:会议组织者无法获知审稿人所使用的具体模型,却仍需识别由 AI 生成的评审意见。针对这一空白,我们提出了上下文水印(In-Context Watermarking, ICW)方法,该方法仅通过提示工程(prompt engineering)将水印嵌入生成文本,充分利用 LLMs 的上下文学习(in-context learning)与指令遵循(instruction-following)能力。我们研究了四种不同粒度层级的 ICW 策略,并为每种策略设计了配套的检测方法。此外,我们以间接提示注入(Indirect Prompt Injection, IPI)为具体案例展开研究,在该场景下,水印通过修改输入文档(如学术论文稿件)被隐蔽地触发。实验结果验证了 ICW 作为一种模型无关(model-agnostic)且具备实用性的水印方案的可行性。进一步地,我们的研究结果表明,随着 LLMs 能力的不断提升,ICW 为可扩展且易于部署的内容归属提供了富有前景的方向。