
摘要
视频中的时序动作定位(Temporal Action Localization, TAL)是一项极具挑战性的任务,尤其由于动作在时间尺度上存在显著差异。在现有数据集中,短时动作通常占据较大比例,但其检测性能却普遍最低。针对这一难题,本文提出了一种多层级跨尺度解决方案——视频自缝合图网络(Video Self-Stitching Graph Network, VSGN)。VSGN包含两个核心组件:视频自缝合(Video Self-Stitching, VSS)与跨尺度图金字塔网络(cross-scale Graph Pyramid Network, xGPN)。在VSS模块中,我们聚焦于视频的短时片段,并沿时间维度对其进行放大,以生成更高时间尺度的表示。随后,将原始片段与其放大后的版本在同一个输入序列中进行拼接,从而充分利用不同时间尺度之间的互补特性。xGPN模块则通过构建多层级的跨尺度图网络结构,进一步挖掘跨尺度间的相关性。每一层图网络均包含一个混合模块,能够同时聚合跨尺度特征与同尺度内的局部特征。所提出的VSGN不仅显著增强了特征表示能力,还有效生成了更多针对短时动作的正样本锚点(positive anchors)以及更多的短时训练样本。大量实验结果表明,VSGN在THUMOS-14和ActivityNet-v1.3两个基准数据集上,均显著提升了短时动作的定位性能,并达到了当前最优的总体性能水平。