HyperAIHyperAI
vor 16 Tagen

NUS-HLT Bericht für die ActivityNet Challenge 2021 AVA (Speaker)

{Haizhou Li, Mike Zheng Shou, Xinyuan Qian, Rohan Kumar Das, Zexu Pan, Ruijie Tao}
NUS-HLT Bericht für die ActivityNet Challenge 2021 AVA (Speaker)
Abstract

Die aktive Sprechererkennung (Active Speaker Detection, ASD) zielt darauf ab, im visuellen Szenario eines oder mehrerer Sprecher zu erkennen, wer gerade spricht. Der Erfolg der ASD hängt von einer präzisen Interpretation sowohl kurzfristiger als auch langfristiger audiovisueller Informationen sowie der Interaktion zwischen Audio- und Videoinformationen ab. Im Gegensatz zu früheren Ansätzen, bei denen Systeme Entscheidungen instantan auf Basis kurzfristiger Merkmale trafen, schlagen wir einen neuartigen Ansatz namens TalkNet vor, der sowohl kurzfristige als auch langfristige Merkmale berücksichtigt, um eine Entscheidung zu treffen. TalkNet besteht aus audio- und visuellen zeitlichen Encodern zur Merkmalsrepräsentation, einem audiovisuellen Kreuz-Attention-Mechanismus zur Interaktion zwischen Modalitäten sowie einer Selbst-Attention-Mechanismus zur Erfassung langfristiger Sprechbeweise. Experimente zeigen, dass TalkNet gegenüber den aktuellen Stand der Technik auf den Validierungs- und Testdatensätzen des AVA-ActiveSpeaker jeweils eine Verbesserung um 3,5 % und 3,0 % erzielt. Wir werden den Quellcode, die Modelle sowie die Datensätze öffentlich bereitstellen.