2달 전

통합된 이미지 및 비디오 주요성 모델링

Richard Droste; Jianbo Jiao; J. Alison Noble
통합된 이미지 및 비디오 주요성 모델링
초록

최근의 컴퓨터 비전 문헌에서 이미지와 비디오의 시각적 주목도 모델링은 두 개의 독립적인 작업으로 취급되고 있습니다. 이미지 주목도 모델링은 잘 연구된 문제로, SALICON 및 MIT300 같은 벤치마크에서의 진전이 느려지고 있지만, 비디오 주목도 모델은 최근 DHF1K 벤치마크에서 빠른 성과를 보여주고 있습니다. 이에 우리는 한 발 물러나 다음과 같이 질문합니다: 이미지와 비디오 주목도 모델링을 통합된 모델을 통해 접근할 수 있으며, 서로에게 혜택을 줄 수 있을까요? 우리는 이미지와 비디오 주목도 데이터 간, 그리고 다양한 비디오 주목도 데이터셋 간의 도메인 시프트(Domain Shift) 원인을 식별하여 효과적인 공동 모델링의 핵심 과제로 제시합니다. 이를 해결하기 위해 우리는 도메인 적응 사전(Domain-Adaptive Priors), 도메인 적응 융합(Domain-Adaptive Fusion), 도메인 적응 평활화(Domain-Adaptive Smoothing) 및 Bypass-RNN이라는 네 가지 새로운 도메인 적응 기법을 제안하며, 학습된 가우스 사전(Gaussian Priors)의 개선된 공식화를 추가로 제공합니다. 이러한 기법들을 단순하고 경량화된 인코더-RNN-디코더 구조의 네트워크, UNISAL에 통합하고, 이미지와 비디오 주목도 데이터를 함께 사용하여 훈련시킵니다. 우리는 DHF1K, Hollywood-2 및 UCF-Sports 비디오 주목도 데이터셋과 SALICON 및 MIT300 이미지 주목도 데이터셋에서 우리의 방법론을 평가하였습니다. 하나의 매개변수 세트로 UNISAL은 모든 비디오 주목도 데이터셋에서 최신 성능을 달성하였으며, 런타임이 더 빠르고 경쟁하는 모든 딥러닝 방법보다 5~20배 작은 모델 크기에도 불구하고 이미지 주목도 데이터셋에서도 최신 성능과 맞먹는 결과를 보였습니다. 우리는 후향 분석(retrospective analyses) 및 생략 연구(ablation studies)를 통해 도메인 시프트 모델링의 중요성을 확인하였습니다. 코드는 https://github.com/rdroste/unisal에서 이용 가능합니다.

통합된 이미지 및 비디오 주요성 모델링 | 최신 연구 논문 | HyperAI초신경