2 个月前
TransRAC:利用Transformer编码多尺度时间相关性进行重复动作计数
Huazhang Hu; Sixun Dong; Yiqun Zhao; Dongze Lian; Zhengxin Li; Shenghua Gao

摘要
计数重复动作在人类活动中广泛存在,例如体育锻炼。现有的方法主要集中在短视频中的重复动作计数,这在处理更现实场景中的长视频时显得力不从心。在数据驱动的时代,这种泛化能力的下降主要归因于缺乏长视频数据集。为了弥补这一不足,我们引入了一个新的大规模重复动作计数数据集,涵盖了广泛的视频长度,并且包含了更多现实情况下的动作中断或动作不一致性。此外,我们还提供了对动作周期的细粒度注释,而不仅仅是带有数值的计数注释。该数据集包含1,451个视频和约20,000个注释,更具挑战性。为了应对更现实场景中的重复动作计数问题,我们进一步提出了利用变压器编码多尺度时间相关性的方法,该方法可以同时考虑性能和效率。此外,在细粒度的动作周期注释的帮助下,我们提出了一种基于密度图回归的方法来预测动作周期,这种方法不仅具有更好的性能,而且具备充分的可解释性。我们的方法在所有数据集上均优于现有最先进方法,并且在未经过微调的情况下,在未知数据集上也表现出更好的性能。该数据集和代码均已公开可用。