Command Palette

Search for a command to run...

7 天前

HumanSense:从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

HumanSense:从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

摘要

尽管多模态大语言模型(MLLMs)在实现真正类人化交互方面展现出巨大潜力,但其发展仍受到缺乏细粒度的人本场景评估框架的制约,这些场景不仅要求模型能够理解复杂的人类意图,还需提供富有同理心且具备上下文感知能力的回应。为此,我们提出了HumanSense——一个全面的基准测试体系,旨在评估MLLM在人本感知与交互方面的能力,尤其聚焦于对长时多模态上下文的深度理解以及合理反馈的生成。我们的评估结果表明,当前领先的MLLM在面向高级交互任务时仍存在显著提升空间。在视觉信息基础上补充音频与文本信息,可带来显著性能提升;而全模态(Omni-modal)模型在该基准上表现更优,这源于我们观察到:恰当的反馈源于对对话者需求与情绪的上下文化分析。基于此,我们提出推理能力是解锁这一能力的关键。为此,我们设计了一种多阶段、模态渐进式的强化学习方法,构建出HumanSense-Omni-Reasoning模型,显著提升了模型在高层理解与交互任务中的表现。此外,我们还发现,成功的推理过程似乎呈现出一致的思维模式。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HumanSense:从多模态感知到通过推理实现共情的上下文感知响应的MLLMs | 论文 | HyperAI超神经