
초록
최근 몇 년 동안 다양한 이미지 기반 도메인 적응(DA) 기술이 제시되었지만, 비디오에서의 도메인 시프트는 아직 충분히 탐구되지 않았습니다. 대부분의 이전 연구들은 성능을 소규모 데이터셋에서만 평가하였는데, 이러한 데이터셋은 포화 상태에 있습니다. 따라서 첫째, 우리는 더 큰 도메인 차이를 가진 대규모 데이터셋을 제안합니다: UCF-HMDB_full. 둘째, 우리는 비디오에 대한 다양한 DA 통합 방법을 조사하고, 시간적 동역학을 동시에 정렬하고 학습하는 것이 복잡한 DA 방법 없이도 효과적인 정렬을 달성할 수 있음을 보여줍니다. 마지막으로, 우리는 도메인 차이를 사용하여 시간적 동역학에 명시적으로 주목하는 Temporal Attentive Adversarial Adaptation Network (TA3N)를 제안합니다. 이 모델은 세 개의 비디오 DA 데이터셋에서 최고 수준의 성능을 달성하였습니다. 코드와 데이터는 http://github.com/cmhungsteve/TA3N에서 제공됩니다.