
초록
비디오에서 활성 화자 검출은 비디오 프레임에 보이는 소스 얼굴을 오디오 모달의 언어 신호와 연관시키는 문제를 다룹니다. 이러한 언어-얼굴 관계를 도출하기 위한 두 가지 주요 정보 출처는 i) 시각적 활동과 그 언어 신호와의 상호작용, 그리고 ii) 얼굴과 언어 형태로 나타나는 화자의 정체성이 여러 모달 간에 동시에 발생하는 것입니다. 두 접근 방식에는 각각 한계가 있습니다: 오디오-시각적 활동 모델은 웃음이나 씹기와 같은 다른 자주 발생하는 음성 활동으로 혼동될 수 있으며, 화자의 정체성을 기반으로 하는 방법은 충분한 해석 정보를 가진 비디오에만 제한됩니다. 이 두 접근 방식이 독립적이므로, 본 연구에서는 그들의 보완적인 성질을 조사합니다. 우리는 활성 화자 검출을 위해 오디오-시각적 활동과 화자의 교차모달 정체성 연관성을 안내하는 새로운 비지도 학습 프레임워크를 제안합니다. AVA 활성 화자 데이터셋(영화)과 Visual Person Clustering Dataset(TV 쇼)이라는 두 벤치마크 데이터셋의 엔터테인먼트 미디어 비디오를 대상으로 한 실험을 통해, 두 접근 방식의 단순 후기 융합이 활성 화자 검출 성능을 향상시키는 것을 보여줍니다.