2달 전
UniCon+: ICTCAS-UCAS, ActivityNet Challenge 2022의 AVA-ActiveSpeaker 과제 제출
Zhang, Yuanhang ; Liang, Susan ; Yang, Shuang ; Shan, Shiguang

초록
본 보고서는 2022년 ActivityNet 챌린지에서 우승한 AVA 활성화된 화자 검출(Active Speaker Detection, ASD) 과제에 대한 간략한 설명을 제시합니다. 우리의 기반 모델인 UniCon+는 이전 연구인 통합 컨텍스트 네트워크(Unified Context Network, UniCon)와 확장된 UniCon을 바탕으로 개발되었으며, 이들은 견고한 장면 수준의 ASD를 위해 설계되었습니다. 우리는 이 아키텍처를 단순한 GRU 기반 모듈로 강화하여, 재발하는 정체성 정보가 읽기 및 업데이트 연산을 통해 장면 간에 흐르도록 하였습니다. AVA-ActiveSpeaker 테스트 세트에서 94.47%의 최고 mAP 결과를 보고하며, 이는 올해의 챌린지 리더보드에서 여전히 1위를 유지하고 있으며 현존하는 최신 기술(state-of-the-art)을 크게 발전시켰습니다.