
摘要
在这项工作中,我们专注于视频动作检测的半监督学习方法,该方法利用了标记数据和未标记数据。我们提出了一种简单且端到端的一致性方法,能够有效利用未标记数据。视频动作检测不仅需要预测动作类别,还需要对动作进行时空定位。因此,我们研究了两种类型的约束条件:分类一致性(classification consistency)和时空一致性(spatio-temporal consistency)。由于视频中普遍存在背景和静态区域,这使得利用时空一致性进行动作检测变得具有挑战性。为了解决这一问题,我们提出了两种新颖的正则化约束条件用于时空一致性:1) 时间连贯性(temporal coherency),2) 梯度平滑性(gradient smoothness)。这两个方面都利用了视频中动作的时间连续性,并被证明在利用未标记视频进行动作检测时非常有效。我们在两个不同的动作检测基准数据集UCF101-24和JHMDB-21上展示了所提方法的有效性。此外,我们还在YouTube-VOS数据集上展示了该方法在视频对象分割中的有效性,证明了其泛化能力。所提出的 方法仅使用UCF101-24数据集中20%的注释信息,在与最近的全监督方法相比时仍能取得具有竞争力的性能。在UCF101-24数据集上,与监督方法相比,该方法分别在0.5 f-mAP和v-mAP指标上提高了8.9%和11%的分数。