2 天前

摘要

随着大语言模型（LLMs）在敏感场景中的应用日益广泛，确保 AI 生成文本的可追溯性与责任归属的水印技术需求愈发迫切。然而，现有大多数水印方法均需访问解码过程，从而限制了其在现实场景中的适用性。一个典型示例是学术同行评审中不诚实审稿人对 LLMs 的滥用：会议组织者无法获知审稿人所使用的具体模型，却仍需识别由 AI 生成的评审意见。针对这一空白，我们提出了上下文水印（In-Context Watermarking, ICW）方法，该方法仅通过提示工程（prompt engineering）将水印嵌入生成文本，充分利用 LLMs 的上下文学习（in-context learning）与指令遵循（instruction-following）能力。我们研究了四种不同粒度层级的 ICW 策略，并为每种策略设计了配套的检测方法。此外，我们以间接提示注入（Indirect Prompt Injection, IPI）为具体案例展开研究，在该场景下，水印通过修改输入文档（如学术论文稿件）被隐蔽地触发。实验结果验证了 ICW 作为一种模型无关（model-agnostic）且具备实用性的水印方案的可行性。进一步地，我们的研究结果表明，随着 LLMs 能力的不断提升，ICW 为可扩展且易于部署的内容归属提供了富有前景的方向。

源 PDF