HyperAIHyperAI
vor 2 Monaten

End-to-End aktive Sprecheraufnahme

Alcazar, Juan Leon ; Cordes, Moritz ; Zhao, Chen ; Ghanem, Bernard
End-to-End aktive Sprecheraufnahme
Abstract

Neuere Fortschritte bei der Problematik der Aktivsprechenerkennung (Active Speaker Detection, ASD) basieren auf einem zweistufigen Prozess: Merkmalsextraktion und räumlich-zeitliche Kontextaggregation. In dieser Arbeit schlagen wir einen end-to-end ASD-Arbeitsablauf vor, bei dem das Merkmalslernen und die kontextuellen Vorhersagen gemeinsam gelernt werden. Unser end-to-end trainierbares Netzwerk lernt gleichzeitig multimodale Einbettungen und aggregiert den räumlich-zeitlichen Kontext. Dies führt zu passenderen Merkmalsrepräsentationen und einer verbesserten Leistung in der ASD-Aufgabe. Wir stellen zudem verflochtene Graph-Neural-Network-Blöcke (interleaved Graph Neural Network blocks, iGNN) vor, die die Nachrichtenübermittlung nach den Hauptquellen des Kontextes im ASD-Problem aufteilen. Experimente zeigen, dass die aggregierten Merkmale aus den iGNN-Blöcken für ASD besser geeignet sind und zu einem Stand-der-Kunst-Leistungsvermögen führen. Schließlich entwickeln wir eine schwach überwachte Strategie, die zeigt, dass das ASD-Problem auch durch die Nutzung von Audiovisuellen Daten gelöst werden kann, wobei ausschließlich auf Audiodaten zur Annotation zurückgegriffen wird. Dies erreichen wir, indem wir das direkte Verhältnis zwischen dem Audiosignal und den möglichen Klangquellen (Sprechern) modellieren sowie einen kontrastiven Verlust einführen. Alle Ressourcen dieses Projekts werden unter folgender URL zur Verfügung gestellt: https://github.com/fuankarion/end-to-end-asd.

End-to-End aktive Sprecheraufnahme | Neueste Forschungsarbeiten | HyperAI