2 个月前

3C-Net：类别计数和中心损失在弱监督动作定位中的应用

Sanath Narayan; Hisham Cholakkal; Fahad Shahbaz Khan; Ling Shao

摘要

时间动作定位是一个具有众多实际应用的挑战性计算机视觉问题。现有的大多数方法都需要繁琐的帧级监督来训练动作定位模型。在本研究中，我们提出了一种称为3C-Net的框架，该框架仅需视频级别的监督（弱监督），即动作类别标签及其对应的计数。我们引入了一种新的公式来学习具有增强定位能力的判别性动作特征。我们的联合公式包含三个部分：一个分类项以确保所学动作特征的可分离性，一个改进的多标签中心损失项以增强动作特征的判别力，以及一个计数损失项以区分相邻的动作序列，从而提高定位精度。我们在两个具有挑战性的基准数据集THUMOS14和ActivityNet 1.2上进行了全面实验。我们的方法在这两个数据集上均实现了弱监督时间动作定位的新最先进水平。在THUMOS14数据集中，所提出的方法在平均精度均值（mean average precision, mAP）方面相比现有最先进方法绝对提升了4.6%。源代码可在https://github.com/naraysa/3c-net 获取。