9일 전
약한 감독 신호를 이용한 다중 모달 시계열 제거 네트워크를 통한 비디오 감정 탐지 및 예측
{Jufeng Yang, Lijuan Wang, Zhicheng Zhang}

초록
최근 사용자 생성 영상(User-Generated Videos, UGVs)의 감정을 자동으로 예측하는 연구에 대한 관심이 점차 증가하고 있다. 그러나 기존의 방법들은 주로 몇 가지 핵심 프레임에 집중하는 경향이 있어, 의도된 감정을 나타내는 맥락을 효과적으로 인코딩할 수 있는 능력에 한계가 있다. 이를 해결하기 위해 본 논문에서는 약한 지도 학습(weakly-supervised) 방식으로 핵심 프레임뿐 아니라 맥락 정보와 오디오 관련 정보까지 동시에 탐지하는 다모달 시계열 제거 네트워크(Cross-Modal Temporal Erasing Network)를 제안한다. 구체적으로, 먼저 서로 다른 영상 세그먼트 간의 내부 및 다모달 관계를 활용하여 정확히 핵심 프레임을 선택한다. 이후 반복적으로 핵심 프레임을 제거함으로써 모델이 보완적인 정보를 포함한 맥락에 집중하도록 유도한다. 세 가지 도전적인 영상 감정 벤치마크에서 실시한 광범위한 실험 결과, 제안한 방법이 최신 기술 대비 유리한 성능을 보임을 확인하였다. 코드는 https://github.com/nku-zhichengzhang/WECL 에 공개되어 있다.