UniCon+: Die Einreichung von ICTCAS-UCAS für die AVA-ActiveSpeaker-Aufgabe beim ActivityNet Challenge 2022

Dieser Bericht präsentiert eine kurze Beschreibung unserer siegreichen Lösung für die Aufgabe der AVA Active Speaker Detection (ASD) beim ActivityNet Challenge 2022. Unser zugrundeliegendes Modell UniCon+ baut auf unseren früheren Arbeiten, dem Unified Context Network (UniCon) und dem Extended UniCon, auf, die für eine robuste szenebasierte ASD entwickelt wurden. Wir erweitern die Architektur um ein einfaches GRU-basiertes Modul, das es ermöglicht, Informationen über wiederkehrende Identitäten durch Lese- und Aktualisierungsvorgänge über Szenen hinweg zu verarbeiten. Wir berichten über ein optimales Ergebnis von 94,47 % mAP im AVA-ActiveSpeaker Testdatensatz, das weiterhin an erster Stelle in diesem Jahr's Challenge-Rangliste steht und den Stand der Technik erheblich vorantreibt.