HyperAIHyperAI

Command Palette

Search for a command to run...

大语言模型的上下文水印

Yepeng Liu Xuandong Zhao Christopher Kruegel Dawn Song Yuheng Bu

摘要

随着大语言模型(LLMs)在敏感场景中的应用日益广泛,确保 AI 生成文本的可追溯性与责任归属的水印技术需求愈发迫切。然而,现有大多数水印方法均需访问解码过程,从而限制了其在现实场景中的适用性。一个典型示例是学术同行评审中不诚实审稿人对 LLMs 的滥用:会议组织者无法获知审稿人所使用的具体模型,却仍需识别由 AI 生成的评审意见。针对这一空白,我们提出了上下文水印(In-Context Watermarking, ICW)方法,该方法仅通过提示工程(prompt engineering)将水印嵌入生成文本,充分利用 LLMs 的上下文学习(in-context learning)与指令遵循(instruction-following)能力。我们研究了四种不同粒度层级的 ICW 策略,并为每种策略设计了配套的检测方法。此外,我们以间接提示注入(Indirect Prompt Injection, IPI)为具体案例展开研究,在该场景下,水印通过修改输入文档(如学术论文稿件)被隐蔽地触发。实验结果验证了 ICW 作为一种模型无关(model-agnostic)且具备实用性的水印方案的可行性。进一步地,我们的研究结果表明,随着 LLMs 能力的不断提升,ICW 为可扩展且易于部署的内容归属提供了富有前景的方向。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供