Command Palette
Search for a command to run...
Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

摘要
尽管多模态大语言模型(MLLMs)在实现真正类人化交互方面展现出巨大潜力,但其发展仍受到缺乏细粒度的人本场景评估框架的制约,这些场景不仅要求模型能够理解复杂的人类意图,还需提供富有同理心且具备上下文感知能力的回应。为此,我们提出了HumanSense——一个全面的基准测试体系,旨在评估MLLM在人本感知与交互方面的能力,尤其聚焦于对长时多模态上下文的深度理解以及合理反馈的生成。我们的评估结果表明,当前领先的MLLM在面向高级交互任务时仍存在显著提升空间。在视觉信息基础上补充音频与文本信息,可带来显著性能提升;而全模态(Omni-modal)模型在该基准上表现更优,这源于我们观察到:恰当的反馈源于对对话者需求与情绪的上下文化分析。基于此,我们提出推理能力是解锁这一能力的关键。为此,我们设计了一种多阶段、模态渐进式的强化学习方法,构建出HumanSense-Omni-Reasoning模型,显著提升了模型在高层理解与交互任务中的表现。此外,我们还发现,成功的推理过程似乎呈现出一致的思维模式。