HyperAI

摘要

尽管多模态大语言模型（MLLMs）在实现真正类人化交互方面展现出巨大潜力，但其发展仍受到缺乏细粒度的人本场景评估框架的制约，这些场景不仅要求模型能够理解复杂的人类意图，还需提供富有同理心且具备上下文感知能力的回应。为此，我们提出了HumanSense——一个全面的基准测试体系，旨在评估MLLM在人本感知与交互方面的能力，尤其聚焦于对长时多模态上下文的深度理解以及合理反馈的生成。我们的评估结果表明，当前领先的MLLM在面向高级交互任务时仍存在显著提升空间。在视觉信息基础上补充音频与文本信息，可带来显著性能提升；而全模态（Omni-modal）模型在该基准上表现更优，这源于我们观察到：恰当的反馈源于对对话者需求与情绪的上下文化分析。基于此，我们提出推理能力是解锁这一能力的关键。为此，我们设计了一种多阶段、模态渐进式的强化学习方法，构建出HumanSense-Omni-Reasoning模型，显著提升了模型在高层理解与交互任务中的表现。此外，我们还发现，成功的推理过程似乎呈现出一致的思维模式。

HumanSense：从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

HumanSense：从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

摘要

用 AI 构建 AI

Hyper Newsletters