한 달 전

대규모 비디오 도메인 적응을 위한 시계열 주의력 정렬

Min-Hung Chen; Zsolt Kira; Ghassan AlRegib; Jaekwon Yoo; Ruxin Chen; Jian Zheng
대규모 비디오 도메인 적응을 위한 시계열 주의력 정렬
초록

최근 몇 년 동안 다양한 이미지 기반 도메인 적응(DA) 기술이 제시되었지만, 비디오에서의 도메인 시프트는 아직 충분히 탐구되지 않았습니다. 대부분의 이전 연구는 포화 상태에 있는 소규모 데이터셋에서만 성능을 평가하였습니다. 따라서, 우리는 먼저 더 큰 도메인 차이를 가진 두 개의 대규모 비디오 DA 데이터셋을 제안합니다: UCF-HMDB_full과 Kinetics-Gameplay입니다. 둘째, 우리는 비디오에 대한 다양한 DA 통합 방법을 조사하고, 시간적 역동성을 동시에 맞추고 학습하는 것이 복잡한 DA 방법 없이도 효과적인 맞춤을 달성할 수 있음을 보여줍니다. 마지막으로, 우리는 시간적 주의 메커니즘을 사용하여 도메인 차이를 명시적으로 고려하여 더 효과적인 도메인 맞춤을 실현하는 Temporal Attentive Adversarial Adaptation Network (TA3N)를 제안합니다. 이 모델은 네 개의 비디오 DA 데이터셋에서 최상의 성능을 달성하며(예: "HMDB → UCF"에서는 "소스만" 기법 대비 정확도가 73.9%에서 81.8%로 7.9% 향상되고, "Kinetics → Gameplay"에서는 10.3% 향상됨). 코드와 데이터는 http://github.com/cmhungsteve/TA3N에서 제공됩니다.