17 天前
家庭动作图谱:协作式组合动作理解
Nishant Rai, Haofeng Chen, Jingwei Ji, Rishi Desai, Kazuki Kozuka, Shun Ishizaka, Ehsan Adeli, Juan Carlos Niebles

摘要
现有动作识别研究通常将视频中的活动视为单一的整体事件。近年来,随着包含此类标注的新型数据集的出现,将动作建模为原子动作组合的方法展现出提升动作理解能力的潜力,使我们能够学习捕捉此类结构信息的表征。然而,目前仍缺乏将动作组合机制进一步拓展,并结合多视角、多模态数据进行表征学习的研究。为推动该方向的发展,我们提出了家庭动作图谱(Home Action Genome,简称 HOMAGE):一个包含多视角、多模态数据的视频动作数据集,辅以分层的活动与原子动作标注,以及密集的场景构成标签。基于丰富的多模态与多视角设置,我们提出了一种协作式组合动作理解框架(Cooperative Compositional Action Understanding,简称 CCAU),该框架能够感知动作的组合性元素,实现分层动作识别。实验结果表明,CCAU在所有模态上均实现了稳定的性能提升。此外,我们还验证了协作式组合学习在少样本动作识别中的有效性,仅使用单一样本即实现了28.6%的mAP。