2 个月前

稳定均值教师在半监督视频动作检测中的应用

Kumar, Akash ; Mitra, Sirshapan ; Rawat, Yogesh Singh
稳定均值教师在半监督视频动作检测中的应用
摘要

在本研究中,我们专注于视频动作检测的半监督学习。视频动作检测不仅需要进行时空定位,还需要分类,而有限的标签数量使得模型容易产生不可靠的预测。我们提出了稳定均值教师(Stable Mean Teacher)框架,这是一种简单且端到端的基于教师的框架,通过改进和时间上一致的伪标签受益。该框架依赖于一种新颖的错误恢复(Error Recovery, EoR)模块,该模块从学生在有标签样本上的错误中学习,并将这些知识传递给教师,以提高无标签样本的伪标签质量。此外,现有的时空损失函数没有考虑时间连贯性,容易导致时间上的不一致性。为了解决这一问题,我们提出了一种简单且新颖的时间连贯性约束——像素差异(Difference of Pixels, DoP),这有助于实现时间上一致的动作检测。我们在四个不同的时空检测基准数据集上评估了我们的方法:UCF101-24、JHMDB21、AVA 和 YouTube-VOS。实验结果表明,我们的方法在 UCF101-24 上平均超过监督基线 23.5%,在 JHMDB21 上超过 16%,在 AVA 上超过 3.3%。仅使用 10% 和 20% 的数据时,我们的方法分别在 UCF101-24 和 JHMDB21 上表现出与使用 100% 标注数据训练的监督基线相当的性能。我们进一步在 AVA 数据集上评估了其扩展至大规模数据集的有效性,并在 YouTube-VOS 数据集上评估了其在视频对象分割任务中的表现,展示了其在视频领域的泛化能力。代码和模型已公开可用。