HyperAIHyperAI
vor 2 Monaten

LoCoNet: Netzwerk für die Erkennung von aktiven Sprechern mit langen und kurzen Kontexten

Wang, Xizi ; Cheng, Feng ; Bertasius, Gedas ; Crandall, David
LoCoNet: Netzwerk für die Erkennung von aktiven Sprechern mit langen und kurzen Kontexten
Abstract

Die Active Speaker Detection (ASD) hat das Ziel, in jedem Bildausschnitt eines Videos zu identifizieren, wer spricht. Die ASD zieht aus audiovisuellen Informationen aus zwei Kontexten Schlussfolgerungen: dem langfristigen inner-sprecherischen Kontext und dem kurzfristigen zwischen-sprecherischen Kontext. Der langfristige inner-sprecherische Kontext modelliert die zeitlichen Abhängigkeiten desselben Sprechers, während der kurzfristige zwischen-sprecherische Kontext die Interaktionen der Sprecher in derselben Szene modelliert. Diese beiden Kontexte ergänzen sich gegenseitig und können helfen, den aktiven Sprecher zu bestimmen. Angeregt durch diese Beobachtungen schlagen wir LoCoNet vor, ein einfaches aber effektives Netzwerk für lang- und kurzfristige Kontexte, das sowohl den langfristigen inner-sprecherischen als auch den kurzfristigen zwischen-sprecherischen Kontext modelliert. Wir verwenden Selbst-Aufmerksamkeit (Self-Attention), um den langfristigen inner-sprecherischen Kontext aufgrund ihrer Effektivität bei der Modellierung von langreichweitigen Abhängigkeiten zu modellieren, und Faltungsblöcke (Convolutional Blocks), die lokale Muster erfassen, um den kurzfristigen zwischen-sprecherischen Kontext zu modellieren. Ausführliche Experimente zeigen, dass LoCoNet auf mehreren Datensätzen Spitzenleistungen erzielt: Es erreicht einen mAP von 95,2 % (+1,1 %) auf dem AVA-ActiveSpeaker-Datensatz, 68,1 % (+22 %) auf dem Columbia-Datensatz, 97,2 % (+2,8 %) auf dem Talkies-Datensatz und 59,7 % (+8,0 %) auf dem Ego4D-Datensatz. Darüber hinaus übertrifft LoCoNet in herausfordernden Fällen – wie z.B. wenn mehrere Sprecher vorhanden sind oder das Gesicht des aktiven Sprechers viel kleiner ist als andere Gesichter in derselben Szene – die bisher besten Methoden um 3,4 % im AVA-ActiveSpeaker-Datensatz. Der Code wird unter https://github.com/SJTUwxz/LoCoNet_ASD veröffentlicht werden.

LoCoNet: Netzwerk für die Erkennung von aktiven Sprechern mit langen und kurzen Kontexten | Neueste Forschungsarbeiten | HyperAI