17 天前
HAA500:面向人类中心的原子动作数据集(含精选视频)
Jihoon Chung, Cheng-hsin Wuu, Hsuan-ru Yang, Yu-Wing Tai, Chi-Keung Tang

摘要
我们提出了HAA500,这是一个由人工标注的以人类为中心的原子动作数据集,涵盖500个类别,包含超过591,000帧的标注视频。为最大限度减少动作分类中的歧义,HAA500包含高度多样化的细粒度原子动作类别,同一标签下的动作具有高度一致性,例如“棒球投球”与“篮球罚球”被分别归类,而非笼统地统一标注为“投掷”这类粗粒度动作动词。这使得HAA500有别于现有原子动作数据集,后者通常采用粗粒度的动作动词(如“投掷”)对原子动作进行标注。HAA500经过精心构建,能够精准捕捉人体运动的细节,有效排除与类别无关的运动成分以及时空标签噪声。HAA500具有四大优势:(1)以人类为中心的动作标注,相关人体姿态的平均可检测关节比例高达69.7%;(2)具备高可扩展性,新增一个类别仅需20至60分钟即可完成;(3)视频内容经过精心筛选,仅保留原子动作的核心要素,剔除无关帧;(4)提供细粒度的原子动作类别。我们通过大量实验,包括在野外采集数据集上的跨数据集验证,充分证明了HAA500在以人类为中心和原子性方面的显著优势。这些特性使得即使是最基础的深度学习模型,也能通过关注原子级人体姿态,显著提升动作预测性能。本文详细介绍了HAA500的数据集统计信息与采集方法,并与现有动作识别数据集进行了定量对比分析。