11일 전

NUS-HLT 2021년 ActivityNet Challenge AVA (Speaker) 보고서

{Haizhou Li, Mike Zheng Shou, Xinyuan Qian, Rohan Kumar Das, Zexu Pan, Ruijie Tao}
NUS-HLT 2021년 ActivityNet Challenge AVA (Speaker) 보고서
초록

활동 화자 탐지(Active Speaker Detection, ASD)는 하나 이상의 화자가 존재하는 시각적 장면에서 누가 말하고 있는지를 탐지하는 것을 목표로 한다. 성공적인 ASD는 단기적이고 장기적인 음성 및 시각 정보의 정확한 해석뿐 아니라, 음성-시각 간의 상호작용을 정확히 이해하는 데 의존한다. 기존의 연구들은 단기적인 특징을 사용하여 즉각적인 결정을 내리는 방식이었다. 반면 본 연구에서는 단기적 특징과 장기적 특징을 모두 고려하여 결정을 내리는 새로운 프레임워크인 TalkNet을 제안한다. TalkNet은 특징 표현을 위한 음성 및 시각적 시간적 인코더, 다중 모달 간 상호작용을 위한 음성-시각 크로스 어텐션 메커니즘, 장기적인 발화 증거를 포착하기 위한 자체 어텐션 메커니즘으로 구성된다. 실험 결과, TalkNet은 AVA-ActiveSpeaker 검증 및 테스트 데이터셋에서 각각 최신 기술 대비 3.5%, 3.0%의 성능 향상을 달성하였다. 코드, 모델 및 데이터 로그는 공개될 예정이다.

NUS-HLT 2021년 ActivityNet Challenge AVA (Speaker) 보고서 | 최신 연구 논문 | HyperAI초신경