一、教程简介

SynthID 是 Google DeepMind 于 2024 年推出的一项技术，可通过将数字水印直接嵌入到 AI 生成的图片、音频、文本或视频中来为 AI 生成的内容添加水印并对其进行识别。如需更完整地了解该方法的技术说明，请参阅 Nature 中的论文「Scalable watermarking for identifying large language model outputs」。

该教程为 SynthID-Text，一种用于识别和验证由大型语言模型 (LLM) 生成的文本的水印技术，它可以保持文本质量并实现高检测精度，同时将延迟成本降至最低。这项技术的核心在于在不损害文本质量和用户体验的前提下，通过细微调整生成过程中的 Token 概率分数来嵌入几乎无法察觉的水印，从而实现高检测精度。 SynthID-Text 不会影响 LLM 训练，只修改了采样程序，水印检测在计算上是高效的，无需使用底层 LLM 。

该教程演示模型使用了 Gemma-2b-it，使用的水印检测器为 Mean（能够快速演示并不经过训练）。带水印的回复往往比无水印的回复有更高的平均分数，检测结果对应 2 个得分：