HyperAIHyperAI
vor 2 Monaten

UniCon: Einheitliches Kontextnetzwerk für robuste aktive Sprecheraufnahme

Zhang, Yuanhang ; Liang, Susan ; Yang, Shuang ; Liu, Xiao ; Wu, Zhongqin ; Shan, Shiguang ; Chen, Xilin
UniCon: Einheitliches Kontextnetzwerk für robuste aktive Sprecheraufnahme
Abstract

Wir stellen ein neues effizientes Framework vor, das Unified Context Network (UniCon), für eine robuste Erkennung des aktiven Sprechers (ASD). Traditionelle Methoden zur ASD arbeiten in der Regel getrennt auf den vorgehenden Gesichtstracks jedes Kandidaten und berücksichtigen nicht ausreichend die Beziehungen zwischen den Kandidaten. Dies kann insbesondere in anspruchsvollen Szenarien mit niedrigen Auflösungen von Gesichtern oder mehreren Kandidaten die Leistung einschränken. Unsere Lösung ist ein neuartiges, vereintes Framework, das sich darauf konzentriert, verschiedene Arten kontextueller Informationen gemeinsam zu modellieren: räumlichen Kontext, um die Position und Skalierung des Gesichts jedes Kandidaten anzugeben; relationalen Kontext, um die visuellen Beziehungen zwischen den Kandidaten zu erfassen und ihre audiovisuellen Affinitäten gegeneinander abzugleichen; sowie zeitlichen Kontext, um langfristige Informationen zu aggregieren und lokale Unsicherheiten zu glätten. Auf Basis dieser Informationen optimiert unser Modell alle Kandidaten in einem vereinten Prozess für eine robuste und verlässliche ASD. Eine detaillierte Abstraktionsstudie wurde unter verschiedenen Bedingungen an mehreren anspruchsvollen ASD-Benchmarks durchgeführt. Insbesondere übertrifft unsere Methode den aktuellen Stand der Technik um einen beträchtlichen Marginalwert von etwa 15% mittlerem Durchschnittspräzisionswert (mean Average Precision, mAP) absolut auf zwei anspruchsvollen Teilmengen: einer mit drei Kandidatensprechern und einer mit Gesichtern kleiner als 64 Pixel. Zusammen erreicht unser UniCon einen mAP-Wert von 92,0% auf dem Validierungsdatensatz AVA-ActiveSpeaker, was erstmals bei diesem schwierigen Datensatz bei der Abgabe einen Wert von über 90% überschreitet. Projektwebsite: https://unicon-asd.github.io/.

UniCon: Einheitliches Kontextnetzwerk für robuste aktive Sprecheraufnahme | Neueste Forschungsarbeiten | HyperAI