
摘要
重复动作计数(Repetitive Action Counting, RAC)旨在统计视频中发生的重复动作次数。在现实世界中,重复动作具有极大的多样性,并带来了许多挑战(例如视角变化、非均匀周期和动作中断)。现有的基于时间自相似矩阵(Temporal Self-Similarity Matrix, TSSM)的RAC方法在应用于复杂的日常视频时,往往因无法充分捕捉动作周期而陷入瓶颈。为了解决这一问题,我们提出了一种新的方法——混合时间关系建模网络(Hybrid Temporal Relation Modeling Network, HTRM-Net),用于构建多样化的TSSM以实现RAC。HTRM-Net主要由三个关键组件构成:双模态时间自相似矩阵建模、随机矩阵丢弃模块以及局部时间上下文建模。具体而言,我们通过双模态(自注意力机制和双重软最大值)操作构建时间自相似矩阵,从而从行相关性和列相关性的组合中获得多样化的矩阵表示。为了进一步增强矩阵表示,我们提出了引入一个随机矩阵丢弃模块来显式地引导矩阵的通道学习。随后,我们将视频帧的局部时间上下文和学到的矩阵注入到时间相关性建模中,这使得模型在面对如动作中断等易出错的情况时更加稳健。最后,设计了一个多尺度矩阵融合模块,以适应性地聚合多尺度矩阵中的时间相关性。广泛的实验表明,所提出的方法不仅超越了当前最先进的方法,还在未见过的动作类别中表现出强大的准确计数能力。值得注意的是,我们的方法在平均绝对误差(MAE)上比经典的TransRAC方法提高了20.04%,在单个最佳观测(OBO)上提高了22.76%。