Command Palette

Search for a command to run...

7 天前

信任的学习:在序列决策中对不同建议者可靠性进行贝叶斯自适应

Dylan M. Asmar Mykel J. Kochenderfer

信任的学习:在序列决策中对不同建议者可靠性进行贝叶斯自适应

摘要

在不确定性环境下执行序列决策任务的自主智能体,若能获得外部动作建议,将显著受益于这些建议所提供的宝贵指导。然而,这些建议的可靠性本身存在差异,具有不确定性。现有方法在融合此类建议时,通常假设建议者的质量参数是静态且已知的,这限制了其在实际场景中的部署能力。本文提出一种新框架,能够动态学习并适应部分可观测环境中建议者可靠性变化的情况。首先,我们将建议者质量直接融入智能体的信念表示中,使智能体能够通过针对建议者类型的贝叶斯推断,自主推断并调整对建议的依赖程度。其次,我们引入一种显式的“请求”(ask)动作,使智能体能够在关键时刻战略性地请求建议,从而在信息收益与获取成本之间实现权衡。实验结果表明,该方法在不同建议者质量条件下均表现出稳健性能,能够适应可靠性变化,并实现对建议请求的智能管理。本研究为应对不确定环境中的建议不确定性问题,奠定了自适应人机协作的理论基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供