HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Task Learning für Audio-Visuelle Aktive Sprechererkennung

Shiguang Shan Shuang Yang Jingyun Xiao Yuanhang Zhang

Zusammenfassung

Dieser Bericht beschreibt die zugrundeliegende Herangehensweise unserer Einreichung zur Aufgabe der aktiven Sprechererkennung (Task B-2) des ActivityNet Challenge 2019. Wir stellen ein neues audio-visuelles Modell vor, das auf einem 3D-ResNet18-Modell für die Lippenlesung vortrainiert und einem VGG-M-Akustikmodell basierend auf vorgeschulten Audio-zu-Video-Synchronisationsaufgaben aufbaut. Das Modell wird in einer Multi-Task-Lernform mit zwei Verlustfunktionen trainiert: einem kontrastiven Verlust, der die Übereinstimmung zwischen Audio- und Video-Features aktiver Sprecher fördert, sowie einem herkömmlichen Cross-Entropy-Verlust zur Erzeugung von Sprecher-/Nicht-Sprecher-Klassen. Das Modell erreicht eine mAP von 84,0 % auf dem Validierungsset von AVAActiveSpeaker. Experimentelle Ergebnisse belegen die Fähigkeit der vortrainierten Embeddings, auf unterschiedliche Aufgaben und Datentypen übertragbar zu sein, sowie den Vorteil des vorgeschlagenen Multi-Task-Lernansatzes.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multi-Task Learning für Audio-Visuelle Aktive Sprechererkennung | Paper | HyperAI