
摘要
由于源域(即训练域)与目标域(即测试域)之间存在显著的空间与时间分布差异,领域自适应技术在视频识别领域中的研究相对较少。现有的视觉领域自适应方法通常依赖对抗学习来统一源域与目标域的视频表示,以增强特征的可迁移性,但在视频任务上效果并不理想。为克服这一局限,本文提出学习一种与领域无关的视频分类器,而非传统的领域不变表示。为此,我们设计了一种对抗性二部图(Adversarial Bipartite Graph, ABG)学习框架,通过二部图的网络拓扑结构直接建模源域与目标域之间的交互关系。具体而言,将源域和目标域的帧分别作为异构节点,而连接两类节点的边则用于度量它们之间的相似性。通过消息传递机制,每个节点聚合来自其异构邻居的特征信息,促使来自同一类别的特征在空间上实现均匀混合。在训练和测试阶段显式地将视频分类器暴露于跨域表示,使模型对标注的源域数据依赖性降低,从而在目标域上实现更优的泛化性能。为进一步提升模型容量并验证所提出架构在复杂迁移任务中的鲁棒性,我们进一步将模型扩展至半监督设置,引入一个额外的视频级别二部图。在四个基准数据集上进行的大量实验表明,所提出方法在视频识别任务上显著优于当前最优(SOTA)方法。