vor 8 Monaten

Zusammenfassung

Die Active Speaker Detection (ASD) hat das Ziel, in jedem Bildausschnitt eines Videos zu identifizieren, wer spricht. Die ASD zieht aus audiovisuellen Informationen aus zwei Kontexten Schlussfolgerungen: dem langfristigen inner-sprecherischen Kontext und dem kurzfristigen zwischen-sprecherischen Kontext. Der langfristige inner-sprecherische Kontext modelliert die zeitlichen Abhängigkeiten desselben Sprechers, während der kurzfristige zwischen-sprecherische Kontext die Interaktionen der Sprecher in derselben Szene modelliert. Diese beiden Kontexte ergänzen sich gegenseitig und können helfen, den aktiven Sprecher zu bestimmen. Angeregt durch diese Beobachtungen schlagen wir LoCoNet vor, ein einfaches aber effektives Netzwerk für lang- und kurzfristige Kontexte, das sowohl den langfristigen inner-sprecherischen als auch den kurzfristigen zwischen-sprecherischen Kontext modelliert. Wir verwenden Selbst-Aufmerksamkeit (Self-Attention), um den langfristigen inner-sprecherischen Kontext aufgrund ihrer Effektivität bei der Modellierung von langreichweitigen Abhängigkeiten zu modellieren, und Faltungsblöcke (Convolutional Blocks), die lokale Muster erfassen, um den kurzfristigen zwischen-sprecherischen Kontext zu modellieren. Ausführliche Experimente zeigen, dass LoCoNet auf mehreren Datensätzen Spitzenleistungen erzielt: Es erreicht einen mAP von 95,2 % (+1,1 %) auf dem AVA-ActiveSpeaker-Datensatz, 68,1 % (+22 %) auf dem Columbia-Datensatz, 97,2 % (+2,8 %) auf dem Talkies-Datensatz und 59,7 % (+8,0 %) auf dem Ego4D-Datensatz. Darüber hinaus übertrifft LoCoNet in herausfordernden Fällen – wie z.B. wenn mehrere Sprecher vorhanden sind oder das Gesicht des aktiven Sprechers viel kleiner ist als andere Gesichter in derselben Szene – die bisher besten Methoden um 3,4 % im AVA-ActiveSpeaker-Datensatz. Der Code wird unter https://github.com/SJTUwxz/LoCoNet_ASD veröffentlicht werden.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Multimodal

Audio- Und Sprachverarbeitung

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Multimodal

Audio- Und Sprachverarbeitung

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LoCoNet: Netzwerk für die Erkennung von aktiven Sprechern mit langen und kurzen Kontexten

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LoCoNet: Netzwerk für die Erkennung von aktiven Sprechern mit langen und kurzen Kontexten

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LoCoNet: Netzwerk für die Erkennung von aktiven Sprechern mit langen und kurzen Kontexten

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters