11일 전
ICTCAS-UCAS-TAL의 ActivityNet Challenge 2021 AVA-ActiveSpeaker 과제에 제출한 결과
{Shiguang Shan, Zhongqin Wu, Xiao Liu, Shuang Yang, Susan Liang, Yuanhang Zhang}

초록
이 보고서는 ActivityNet Challenge 2021에서 AVA Active Speaker Detection (ASD) 과제에 대한 우리 방법에 대한 간략한 설명을 제시한다. 우리 솔루션인 확장형 통합 컨텍스트 네트워크(Extended Unified Context Network, Extended UniCon)는 강건한 ASD를 위해 설계된 새로운 통합 컨텍스트 네트워크(UniCon)를 기반으로 하며, 다양한 유형의 컨텍스트 정보를 통합하여 모든 후보를 공동 최적화한다. 본 연구에서는 원본 UniCon의 음성 특징, 시계열 모델링 아키텍처 및 손실 함수 설계 측면에서 몇 가지 개선을 제안한다. 이러한 개선을 통해 얻은 최적의 모델 앙상블은 사전 훈련 없이도 AVA-ActiveSpeaker 테스트 세트에서 93.4%의 mAP를 기록하며, 기존 최고 성능을 초월하는 새로운 최신 기준을 수립하였으며, 현재 ActivityNet 챌린지 랭킹에서 1위를 차지하고 있다.