6 个月前

摘要

尽管全监督动作分割技术近年来取得了显著进展，其性能仍未能达到理想水平。一个主要挑战在于时空变异问题（例如，不同个体执行同一动作的方式存在差异）。为此，本文利用未标注视频来应对这一挑战，将动作分割任务重新建模为一个跨域问题，其中域间差异由时空变异引起。为减少域间差异，我们提出自监督时序域适应（Self-Supervised Temporal Domain Adaptation, SSTDA），该方法包含两个自监督辅助任务——二分类域预测与序列域预测，用于联合对齐蕴含局部与全局时序动态特征的跨域特征空间，从而在性能上优于现有的各类域适应（Domain Adaptation, DA）方法。在三个具有挑战性的基准数据集（GTEA、50Salads 和 Breakfast）上，SSTDA 相较于当前最优方法取得了显著提升（例如，在 Breakfast 数据集上，F1@25 分数从 59.6% 提升至 69.1%；在 50Salads 上从 73.4% 提升至 81.5%；在 GTEA 上从 83.6% 提升至 89.1%），且仅需 65% 的标注训练数据即可达到相当的性能水平，充分证明了在跨时空变异场景下对未标注目标视频进行域适应的有效性。相关源代码已公开，地址为：https://github.com/cmhungsteve/SSTDA。

源 PDF