HyperAIHyperAI

Command Palette

Search for a command to run...

Ein leichtgewichtiges Modell zur Erkennung des aktiven Sprechers

Liao Junhua ; Duan Haihan ; Feng Kanghui ; Zhao Wanbing ; Yang Yanbing ; Chen Liangyin

Zusammenfassung

Die Erkennung aktiver Sprecher ist eine anspruchsvolle Aufgabe im Bereich der Audiovisuellen Szenerkennung, die darauf abzielt, zu identifizieren, wer in einer oder mehreren Sprechersituationen spricht. Diese Aufgabe hat erhebliche Aufmerksamkeit erhalten, da sie für Anwendungen wie Sprecherdiarisierung, Sprecherverfolgung und automatisches Video-Editing von entscheidender Bedeutung ist. Bestehende Studien versuchen, die Leistung durch die Eingabe von mehreren Kandidateninformationen und das Design komplexer Modelle zu verbessern. Obwohl diese Methoden außergewöhnliche Ergebnisse erzielten, erschweren ihr hoher Speicher- und Rechenbedarf ihre Anwendung in Ressourcenbegrenzten Szenarien. Daher haben wir eine leichte Architektur zur Erkennung aktiver Sprecher entwickelt, indem wir die Anzahl der Eingabekandidaten reduzieren, 2D- und 3D-Konvolutionen für die Audiovisuelle Merkmalsextraktion trennen und eine Gated Recurrent Unit (GRU) mit geringer Rechenkomplexität für das Cross-Modale Modellieren anwenden. Experimentelle Ergebnisse auf dem AVA-ActiveSpeaker-Datensatz zeigen, dass unser Framework wettbewerbsfähige mAP-Leistungen (94,1% gegenüber 94,2%) erzielt, während die Ressourcenkosten deutlich niedriger sind als bei den besten bisher bekannten Methoden, insbesondere in Bezug auf Modellparameter (1,0M gegenüber 22,5M, etwa 23-fach) und FLOPs (0,6G gegenüber 2,6G, etwa 4-fach). Zudem zeigt unser Framework auch auf dem Columbia-Datensatz gute Robustheit. Der Code und die Modellgewichte sind unter https://github.com/Junhua-Liao/Light-ASD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp