1 个月前
防御神经网络生成的假新闻
Rowan Zellers; Ari Holtzman; Hannah Rashkin; Yonatan Bisk; Ali Farhadi; Franziska Roesner; Yejin Choi

摘要
近期在自然语言生成领域的进展引发了双重用途的担忧。虽然诸如摘要生成和翻译等应用具有积极意义,但其底层技术也可能被对手用于生成神经假新闻:这种假新闻能够高度模仿真实新闻的风格,进行有针对性的宣传。现代计算机安全依赖于细致的威胁建模:从对手的角度识别潜在威胁和漏洞,并探索这些威胁的缓解措施。同样,为了开发出针对神经假新闻的强大防御机制,我们首先需要仔细研究并描述这些模型的风险。因此,我们提出了一种可控文本生成模型——Grover。给定一个标题如“发现疫苗与自闭症之间的联系”,Grover 可以生成文章的其余部分;人类认为这些生成的文章比人工编写的虚假信息更具可信度。开发针对像 Grover 这样的生成器的强大验证技术至关重要。我们发现,当前最佳的判别器在拥有中等水平训练数据的情况下,可以以 73% 的准确率区分神经假新闻和真实的人类撰写新闻。出乎意料的是,对抗 Grover 的最佳防御方法竟然是 Grover 本身,其准确率达到 92%,这表明了公开发布强大生成器的重要性。我们进一步探讨了这些结果,展示了暴露偏差(exposure bias)及其缓解策略都会留下可被类似判别器识别的痕迹。最后,我们讨论了该技术涉及的伦理问题,并计划公开发布 Grover,以帮助更好地检测神经假新闻。