8일 전
Shuffle and Attend: 비디오 도메인 적응
{Jia-Bin Huang, Gaurav Sharma, Jinwoo Choi, Samuel Schulter}

초록
우리는 인간 행동 인식을 위한 영상 분야 적응 문제를 다룬다. 이미지 기반 분야 적응에 영감을 받아, 소스 및 타겟 영상의 프레임 또는 클립 특징을 정렬함으로써 영상 적응을 수행할 수 있다. 그러나 모든 클립을 동등하게 정렬하는 것은 최적의 방법이 아니며, 모든 클립이 작업에 유용한 정보를 제공하는 것은 아니다. 본 연구의 첫 번째 혁신으로, 더 구분력 있는 클립에 주목하는 주의 메커니즘을 제안하며, 클립 수준이 아닌 영상 수준의 정렬을 직접 최적화한다. 또한 소스와 타겟 영상 간 배경이 일반적으로 매우 다르기 때문에, 소스 데이터의 배경에 의해 손상된 모델은 타겟 도메인 영상에 잘 적응하지 못한다. 이를 완화하기 위해, 두 번째 혁신으로 클립 순서 예측을 보조 과제로 도입한다. 클립 순서 예측 손실을 도메인 적대적 손실과 결합함으로써, 배경과 같은 정보가 부족하고 소스와 타겟 간에 크게 다른 요소보다는 행동에 관여하는 사람과 물체에 초점을 맞춘 표현을 학습하도록 유도한다. 실증적으로 두 구성 요소 모두 적응 성능 향상에 긍정적인 기여를 함을 보여준다. 우리는 UCF 및 HMDB 데이터셋 기반의 두 개의 도전적인 공개 벤치마크와 Kinetics에서 NEC-Drone 데이터셋에 이르기까지 총 세 가지 벤치마크 중 두 곳에서 최신 기술(SOTA) 수준의 성능을 기록한다. 또한 정성적 결과를 통해 제안된 방법의 직관성과 성과를 뒷받침한다.