HyperAIHyperAI

Command Palette

Search for a command to run...

LoCoNet: Netzwerk für die Erkennung von aktiven Sprechern mit langen und kurzen Kontexten

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Zusammenfassung

Die Active Speaker Detection (ASD) hat das Ziel, in jedem Bildausschnitt eines Videos zu identifizieren, wer spricht. Die ASD zieht aus audiovisuellen Informationen aus zwei Kontexten Schlussfolgerungen: dem langfristigen inner-sprecherischen Kontext und dem kurzfristigen zwischen-sprecherischen Kontext. Der langfristige inner-sprecherische Kontext modelliert die zeitlichen Abhängigkeiten desselben Sprechers, während der kurzfristige zwischen-sprecherische Kontext die Interaktionen der Sprecher in derselben Szene modelliert. Diese beiden Kontexte ergänzen sich gegenseitig und können helfen, den aktiven Sprecher zu bestimmen. Angeregt durch diese Beobachtungen schlagen wir LoCoNet vor, ein einfaches aber effektives Netzwerk für lang- und kurzfristige Kontexte, das sowohl den langfristigen inner-sprecherischen als auch den kurzfristigen zwischen-sprecherischen Kontext modelliert. Wir verwenden Selbst-Aufmerksamkeit (Self-Attention), um den langfristigen inner-sprecherischen Kontext aufgrund ihrer Effektivität bei der Modellierung von langreichweitigen Abhängigkeiten zu modellieren, und Faltungsblöcke (Convolutional Blocks), die lokale Muster erfassen, um den kurzfristigen zwischen-sprecherischen Kontext zu modellieren. Ausführliche Experimente zeigen, dass LoCoNet auf mehreren Datensätzen Spitzenleistungen erzielt: Es erreicht einen mAP von 95,2 % (+1,1 %) auf dem AVA-ActiveSpeaker-Datensatz, 68,1 % (+22 %) auf dem Columbia-Datensatz, 97,2 % (+2,8 %) auf dem Talkies-Datensatz und 59,7 % (+8,0 %) auf dem Ego4D-Datensatz. Darüber hinaus übertrifft LoCoNet in herausfordernden Fällen – wie z.B. wenn mehrere Sprecher vorhanden sind oder das Gesicht des aktiven Sprechers viel kleiner ist als andere Gesichter in derselben Szene – die bisher besten Methoden um 3,4 % im AVA-ActiveSpeaker-Datensatz. Der Code wird unter https://github.com/SJTUwxz/LoCoNet_ASD veröffentlicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp