3 个月前

自然语言处理

自然语言处理

Rishub Jain Sophie Bridgers Lili Janzer Rory Greig Tian Huey Teh Vladimir Mikulik

摘要

人类反馈对于使人工智能系统与人类价值观保持一致至关重要。随着人工智能能力的提升以及其在更复杂任务中的应用，验证其质量与安全性也变得日益困难。本文探讨了如何利用人工智能来提升人类监督的质量。我们聚焦于一个目前对人类而言已颇具挑战性的安全问题：对人工智能输出结果的真实性进行核查。研究发现，基于人工智能评估者的置信度，将AI评分与人类评分相结合，优于单独依赖任一方式。为人类监督者提供AI事实核查助手可进一步提升其判断准确性，但辅助形式的差异至关重要：若展示AI的解释、置信度和标签，容易导致人类过度依赖AI；而仅展示搜索结果和证据，则能促使人类建立更为合理的信任关系。这些发现对“增强型监督”（Amplified Oversight）具有重要启示，即在人工智能系统性能已超越人类专家水平的背景下，如何有效融合人类与人工智能以实现对AI系统的监督。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

自然语言处理

自然语言处理

Rishub Jain Sophie Bridgers Lili Janzer Rory Greig Tian Huey Teh Vladimir Mikulik

摘要

人类反馈对于使人工智能系统与人类价值观保持一致至关重要。随着人工智能能力的提升以及其在更复杂任务中的应用，验证其质量与安全性也变得日益困难。本文探讨了如何利用人工智能来提升人类监督的质量。我们聚焦于一个目前对人类而言已颇具挑战性的安全问题：对人工智能输出结果的真实性进行核查。研究发现，基于人工智能评估者的置信度，将AI评分与人类评分相结合，优于单独依赖任一方式。为人类监督者提供AI事实核查助手可进一步提升其判断准确性，但辅助形式的差异至关重要：若展示AI的解释、置信度和标签，容易导致人类过度依赖AI；而仅展示搜索结果和证据，则能促使人类建立更为合理的信任关系。这些发现对“增强型监督”（Amplified Oversight）具有重要启示，即在人工智能系统性能已超越人类专家水平的背景下，如何有效融合人类与人工智能以实现对AI系统的监督。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

人类与AI的互补性：增强监督的目标 | 论文 | HyperAI超神经