11일 전
NUS-HLT 2021년 ActivityNet Challenge AVA (Speaker) 보고서
{Haizhou Li, Mike Zheng Shou, Xinyuan Qian, Rohan Kumar Das, Zexu Pan, Ruijie Tao}

초록
활동 화자 탐지(Active Speaker Detection, ASD)는 하나 이상의 화자가 존재하는 시각적 장면에서 누가 말하고 있는지를 탐지하는 것을 목표로 한다. 성공적인 ASD는 단기적이고 장기적인 음성 및 시각 정보의 정확한 해석뿐 아니라, 음성-시각 간의 상호작용을 정확히 이해하는 데 의존한다. 기존의 연구들은 단기적인 특징을 사용하여 즉각적인 결정을 내리는 방식이었다. 반면 본 연구에서는 단기적 특징과 장기적 특징을 모두 고려하여 결정을 내리는 새로운 프레임워크인 TalkNet을 제안한다. TalkNet은 특징 표현을 위한 음성 및 시각적 시간적 인코더, 다중 모달 간 상호작용을 위한 음성-시각 크로스 어텐션 메커니즘, 장기적인 발화 증거를 포착하기 위한 자체 어텐션 메커니즘으로 구성된다. 실험 결과, TalkNet은 AVA-ActiveSpeaker 검증 및 테스트 데이터셋에서 각각 최신 기술 대비 3.5%, 3.0%의 성능 향상을 달성하였다. 코드, 모델 및 데이터 로그는 공개될 예정이다.