Ein leichtgewichtiges Modell zur Erkennung des aktiven Sprechers

Die Erkennung aktiver Sprecher ist eine anspruchsvolle Aufgabe im Bereich der Audiovisuellen Szenerkennung, die darauf abzielt, zu identifizieren, wer in einer oder mehreren Sprechersituationen spricht. Diese Aufgabe hat erhebliche Aufmerksamkeit erhalten, da sie für Anwendungen wie Sprecherdiarisierung, Sprecherverfolgung und automatisches Video-Editing von entscheidender Bedeutung ist. Bestehende Studien versuchen, die Leistung durch die Eingabe von mehreren Kandidateninformationen und das Design komplexer Modelle zu verbessern. Obwohl diese Methoden außergewöhnliche Ergebnisse erzielten, erschweren ihr hoher Speicher- und Rechenbedarf ihre Anwendung in Ressourcenbegrenzten Szenarien. Daher haben wir eine leichte Architektur zur Erkennung aktiver Sprecher entwickelt, indem wir die Anzahl der Eingabekandidaten reduzieren, 2D- und 3D-Konvolutionen für die Audiovisuelle Merkmalsextraktion trennen und eine Gated Recurrent Unit (GRU) mit geringer Rechenkomplexität für das Cross-Modale Modellieren anwenden. Experimentelle Ergebnisse auf dem AVA-ActiveSpeaker-Datensatz zeigen, dass unser Framework wettbewerbsfähige mAP-Leistungen (94,1% gegenüber 94,2%) erzielt, während die Ressourcenkosten deutlich niedriger sind als bei den besten bisher bekannten Methoden, insbesondere in Bezug auf Modellparameter (1,0M gegenüber 22,5M, etwa 23-fach) und FLOPs (0,6G gegenüber 2,6G, etwa 4-fach). Zudem zeigt unser Framework auch auf dem Columbia-Datensatz gute Robustheit. Der Code und die Modellgewichte sind unter https://github.com/Junhua-Liao/Light-ASD verfügbar.