HyperAIHyperAI
vor 16 Tagen

Multi-Task Learning für Audio-Visuelle Aktive Sprechererkennung

{Shiguang Shan, Shuang Yang, Jingyun Xiao, Yuanhang Zhang}
Multi-Task Learning für Audio-Visuelle Aktive Sprechererkennung
Abstract

Dieser Bericht beschreibt die zugrundeliegende Herangehensweise unserer Einreichung zur Aufgabe der aktiven Sprechererkennung (Task B-2) des ActivityNet Challenge 2019. Wir stellen ein neues audio-visuelles Modell vor, das auf einem 3D-ResNet18-Modell für die Lippenlesung vortrainiert und einem VGG-M-Akustikmodell basierend auf vorgeschulten Audio-zu-Video-Synchronisationsaufgaben aufbaut. Das Modell wird in einer Multi-Task-Lernform mit zwei Verlustfunktionen trainiert: einem kontrastiven Verlust, der die Übereinstimmung zwischen Audio- und Video-Features aktiver Sprecher fördert, sowie einem herkömmlichen Cross-Entropy-Verlust zur Erzeugung von Sprecher-/Nicht-Sprecher-Klassen. Das Modell erreicht eine mAP von 84,0 % auf dem Validierungsset von AVAActiveSpeaker. Experimentelle Ergebnisse belegen die Fähigkeit der vortrainierten Embeddings, auf unterschiedliche Aufgaben und Datentypen übertragbar zu sein, sowie den Vorteil des vorgeschlagenen Multi-Task-Lernansatzes.

Multi-Task Learning für Audio-Visuelle Aktive Sprechererkennung | Neueste Forschungsarbeiten | HyperAI