Command Palette

Search for a command to run...

5 天前

人类与AI的互补性:增强监督的目标

Rishub Jain Sophie Bridgers Lili Janzer Rory Greig Tian Huey Teh Vladimir Mikulik

人类与AI的互补性:增强监督的目标

摘要

人类反馈对于使人工智能系统与人类价值观保持一致至关重要。随着人工智能能力的提升以及其在更复杂任务中的应用,验证其质量与安全性也变得日益困难。本文探讨了如何利用人工智能来提升人类监督的质量。我们聚焦于一个目前对人类而言已颇具挑战性的安全问题:对人工智能输出结果的真实性进行核查。研究发现,基于人工智能评估者的置信度,将AI评分与人类评分相结合,优于单独依赖任一方式。为人类监督者提供AI事实核查助手可进一步提升其判断准确性,但辅助形式的差异至关重要:若展示AI的解释、置信度和标签,容易导致人类过度依赖AI;而仅展示搜索结果和证据,则能促使人类建立更为合理的信任关系。这些发现对“增强型监督”(Amplified Oversight)具有重要启示,即在人工智能系统性能已超越人类专家水平的背景下,如何有效融合人类与人工智能以实现对AI系统的监督。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
人类与AI的互补性:增强监督的目标 | 论文 | HyperAI超神经