2달 전
불확실성 기반 다중 모달 융합을 이용한 활성화된 화자 검출
Pouthier, Baptiste ; Pilati, Laurent ; Gudupudi, Leela K. ; Bouveyron, Charles ; Precioso, Frederic

초록
다양한 연구를 통해 비디오와 오디오 데이터를 결합하여 활성 화자(Active Speaker)를 감지하는 데 상당한 이점이 있다는 것이 확립되었습니다. 그러나 어느 한 모달도 신뢰할 수 없는 또는 속임수 정보를 유발함으로써 오디오비디오 융합을 잘못 이끌 수 있는 가능성이 있습니다. 본 논문은 새로운 자기 주의(self-attention), 불확실성 기반 다중 모달 융합 방식을 사용하여 각 모달의 최선을 활용하기 위해 활성 화자 감지를 다목적 학습 문제로 정의합니다. 얻어진 결과는 제안된 다목적 학습 아키텍처가 전통적인 접근 방식보다 mAP 및 AUC 점수를 개선하는 데 우월하다는 것을 보여줍니다. 또한, 우리의 융합 전략이 다양한 분야에서 보고된 다른 모달 융합 방법보다 활성 화자 감지에서 우수함을 입증하였습니다. 마지막으로, 제안된 방법이 AVA-ActiveSpeaker 데이터셋에서 기존 최신 기술(state-of-the-art)을 크게 개선했다는 것을 보여주었습니다.