UniCon: 통합 컨텍스트 네트워크를 이용한 강건한 활성화된 화자 검출

우리는 효율적인 새로운 프레임워크인 통합 컨텍스트 네트워크 (Unified Context Network, UniCon)를 소개합니다. 이 프레임워크는 견고한 활성 화자 검출 (Active Speaker Detection, ASD)을 위한 것입니다. 전통적인 ASD 방법들은 일반적으로 각 후보의 사전 크롭된 얼굴 추적을 개별적으로 처리하며, 후보들 사이의 관계를 충분히 고려하지 않습니다. 이는 특히 저해상도 얼굴, 여러 후보 등과 같은 어려운 시나리오에서 성능을 제한할 가능성이 있습니다. 우리의 해결책은 공간 컨텍스트 (각 후보의 얼굴 위치와 크기를 나타내기 위함), 관계 컨텍스트 (후보들 간의 시각적 관계를 포착하고 서로 다른 오디오-시각적 친화성을 대조하기 위함), 그리고 시간적 컨텍스트 (장기 정보를 집계하고 국소 불확실성을 완화하기 위함)와 같은 다양한 유형의 컨텍스트 정보를 공동으로 모델링하는 혁신적인 통합 프레임워크입니다. 이러한 정보를 바탕으로, 우리의 모델은 견고하고 신뢰할 수 있는 ASD을 위해 모든 후보들을 통합된 과정에서 최적화합니다.여러 어려움이 있는 ASD 벤치마크에서 다양한 설정 하에 철저한 아블레이션 연구가 수행되었습니다. 특히, 세 명의 후보 화자가 포함된 부분집합과 64픽셀 미만의 작은 얼굴이 포함된 부분집합 두 가지 어려운 서브셋에서 우리의 방법은 기존 최신 기술보다 약 15% 절대 평균 정밀도 (mean Average Precision, mAP)에서 큰 차이로 우수한 성능을 보였습니다. 결과적으로, UniCon은 AVA-ActiveSpeaker 검증 세트에서 92.0% mAP를 달성하여 이 어려운 데이터셋에서 처음으로 90%를 초월하였습니다.프로젝트 웹사이트: https://unicon-asd.github.io/.