8 天前

Shuffle and Attend:视频域自适应

{Jia-Bin Huang, Gaurav Sharma, Jinwoo Choi, Samuel Schulter}
Shuffle and Attend:视频域自适应
摘要

我们针对视频领域自适应中的人体动作识别任务提出解决方案。受图像领域自适应的启发,可通过对源域与目标域视频的帧或片段特征进行对齐来实现视频层面的适应。然而,对所有片段进行均等对齐并非最优策略,因为并非所有片段对任务都具有同等信息量。作为首个创新点,我们提出一种注意力机制,能够聚焦于更具判别性的片段,并直接优化视频级别的特征对齐(而非片段级别对齐)。由于源域与目标域的背景通常存在显著差异,导致源域中受背景干扰的模型在目标域视频上的适应性能较差。为此,作为第二个创新点,我们引入片段顺序预测作为辅助任务。当该任务的损失与领域对抗损失相结合时,能够促使模型学习到更关注动作中涉及的人体与物体的表示,而非那些无关且在源域与目标域间差异较大的背景信息。我们通过实验验证了上述两个组件均能有效提升领域自适应性能。在三个具有挑战性的公开基准测试中,我们在其中两个(基于UCF和HMDB数据集)取得了当前最优的性能表现,并在另一个基于Kinetics到NEC-Drone数据集的跨域任务上也取得了优异结果。此外,我们通过定性分析进一步验证了方法设计的合理性与有效性。

Shuffle and Attend:视频域自适应 | 最新论文 | HyperAI超神经