
摘要
大多数文献中的活动定位方法都面临着逐帧标注的需求带来的负担。从弱标签中学习可能是减少这种手动标注工作量的一个潜在解决方案。近年来,互联网上出现了大量带有标签的视频,这些视频可以作为弱监督训练数据的丰富来源。具体而言,可以通过利用具有相似标签的视频之间的相关性来实现活动的时间定位。为此,我们提出了一种仅使用视频级标签的弱监督时间活动定位和分类框架(W-TALC)。所提出的网络可以分为两个子网络,即基于双流的特征提取网络和一个弱监督模块,通过优化两个互补的损失函数来学习该模块。在两个具有挑战性的数据集——Thumos14 和 ActivityNet1.2 上进行的定性和定量实验结果表明,所提出的方法能够在细粒度上检测活动,并且性能优于当前最先进的方法。