1 个月前

MMHU:大规模多模态人类行为理解基准测试

Renjie Li, Ruijie Ye, Mingyang Wu, Hao Frank Yang, Zhiwen Fan, Hezhen Hu, Zhengzhong Tu
MMHU:大规模多模态人类行为理解基准测试
摘要

人类是交通生态系统的重要组成部分,理解他们的行为对于促进安全驾驶系统的开发至关重要。尽管近期的研究已经探索了人类行为的多个方面——如运动、轨迹和意图——但目前仍缺乏一个全面评估自动驾驶中人类行为理解的基准。在本研究中,我们提出了MMHU,这是一个大规模的人类行为分析基准,包含丰富注释,如人体运动和轨迹、人体运动的文字描述、人类意图以及与驾驶安全相关的关键行为标签。我们的数据集涵盖了从多种来源收集的57,000段人体运动片段和173万帧图像,这些来源包括已建立的驾驶数据集(如Waymo)、来自YouTube的真实场景视频以及自行收集的数据。我们开发了一种“人在回路”(human-in-the-loop)的注释流程,以生成丰富的行为说明。我们对数据集进行了详尽的分析,并对多个任务进行了基准测试——从运动预测到运动生成及人类行为问答——从而提供了一个广泛的评估工具包。项目页面:https://MMHU-Benchmark.github.io。