
摘要
尽管近年来提出了多种基于图像的域适应(Domain Adaptation, DA)技术,但视频中的域偏移问题仍鲜有研究。大多数先前的工作仅在规模较小且已饱和的数据集上评估性能。因此,我们首先提出一个更大规模且域差异更大的数据集:UCF-HMDB_full。其次,我们探讨了不同的视频域适应集成方法,并表明同时对齐和学习时间动态可以实现有效的对齐,即使没有复杂的域适应方法。最后,我们提出了时间注意力对抗适应网络(Temporal Attentive Adversarial Adaptation Network, TA3N),该网络通过显式关注时间动态并利用域差异来实现更有效的域对齐,在三个视频域适应数据集上达到了最先进的性能。代码和数据已发布在 http://github.com/cmhungsteve/TA3N。