HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Agent AI:探索多模态交互的前沿

Abstract

多模态人工智能系统未来很可能成为我们日常生活中无处不在的存在。一种有前景的提升这些系统交互能力的方法,是将它们具身化为物理与虚拟环境中的智能体。目前,各类系统普遍利用现有的基础模型作为构建具身智能体的基本组件。将智能体嵌入此类环境中,有助于模型处理和理解视觉信息与上下文数据,这对于开发更复杂、更具情境感知能力的人工智能系统至关重要。例如,一个能够感知用户行为、人类动作、环境物体、语音表达以及场景整体情绪状态的系统,可据此为环境中的智能体提供决策依据并引导其响应行为。为加速基于智能体的多模态智能研究,我们提出“智能体AI”(Agent AI)这一概念,将其定义为一类能够感知视觉刺激、语言输入及其他与环境相关数据,并能生成有意义的具身化行为的交互式系统。具体而言,我们重点研究通过引入外部知识、多感官输入以及人类反馈,以提升智能体在预测下一步具身行为方面的表现。我们认为,通过在具身化环境中开发智能体AI系统,不仅能够有效缓解大型基础模型的幻觉问题,还能降低其生成与环境不符输出的倾向。智能体AI这一新兴领域涵盖了多模态交互中更广泛的具身性与主动性特征。除了智能体在物理世界中的行动与交互,我们更展望一个未来:人们可以轻松创建任意的虚拟现实场景或模拟环境,并与其中具身化的智能体进行自然互动。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供