2달 전

야외 환경에서 오디오-비주얼 활성화된 화자 검출을 위한 세 단계 아키텍처 설계 방법

Köpüklü, Okan ; Taseska, Maja ; Rigoll, Gerhard

초록

성공적인 활동 발화자 검출을 위해서는 세 단계의 파이프라인이 필요합니다: (i) 클립 내 모든 발화자의 오디오-비주얼 인코딩, (ii) 각 프레임 내 참조 발화자와 배경 발화자 간의 상호 관계 모델링, 그리고 (iii) 참조 발화자의 시각적 모델링입니다. 이 파이프라인의 각 단계는 생성된 아키텍처의 최종 성능에 중요한 역할을 합니다. 일련의 제어 실험을 바탕으로, 본 연구에서는 오디오-비주얼 활동 발화자 검출을 위한 몇 가지 실용적인 가이드라인을 제시합니다. 또한, 우리는 새로운 아키텍처인 ASDNet(Active Speaker Detection Network)를 소개하며, 이는 AVA-ActiveSpeaker 데이터셋에서 93.5%의 mAP(Mean Average Precision)를 달성하여 두 번째로 우수한 결과보다 4.7%라는 큰 마진으로 앞섰습니다. 우리의 코드와 사전 학습된 모델은 공개적으로 이용 가능합니다.