Command Palette
Search for a command to run...
Rishub Jain Sophie Bridgers Lili Janzer Rory Greig Tian Huey Teh Vladimir Mikulik

摘要
人类反馈对于使人工智能系统与人类价值观保持一致至关重要。随着人工智能能力的提升以及其在更复杂任务中的应用,验证其质量与安全性也变得日益困难。本文探讨了如何利用人工智能来提升人类监督的质量。我们聚焦于一个目前对人类而言已颇具挑战性的安全问题:对人工智能输出结果的真实性进行核查。研究发现,基于人工智能评估者的置信度,将AI评分与人类评分相结合,优于单独依赖任一方式。为人类监督者提供AI事实核查助手可进一步提升其判断准确性,但辅助形式的差异至关重要:若展示AI的解释、置信度和标签,容易导致人类过度依赖AI;而仅展示搜索结果和证据,则能促使人类建立更为合理的信任关系。这些发现对“增强型监督”(Amplified Oversight)具有重要启示,即在人工智能系统性能已超越人类专家水平的背景下,如何有效融合人类与人工智能以实现对AI系统的监督。