HyperAIHyperAI
vor 2 Monaten

Mehrfach-Aufgaben-basiertes mehrmodales selbstüberwachtes Lernen für die Erkennung von Gesichtsausdrücken

Marah Halawa; Florian Blume; Pia Bideau; Martin Maier; Rasha Abdel Rahman; Olaf Hellwich
Mehrfach-Aufgaben-basiertes mehrmodales selbstüberwachtes Lernen für die Erkennung von Gesichtsausdrücken
Abstract

Die menschliche Kommunikation ist multimodal; zum Beispiel umfasst die direkte Interaktion auditive Signale (Sprache) und visuelle Signale (Gesichtsbewegungen und Handgesten). Daher ist es entscheidend, bei der Entwicklung von maschinelles Lernen-basierten Systemen zur Erkennung von Gesichtsausdrücken mehrere Modalitäten zu nutzen. Zudem sollten solche Systeme in Anbetracht der ständig wachsenden Mengen an Videodaten, die menschliche Gesichtsausdrücke erfassen, rohe, nicht annotierte Videos verwenden können, ohne aufwendige Annotationen zu benötigen. In dieser Arbeit setzen wir daher eine Methode des Multitasking-Multimodal-Selbstüberwachenden Lernens (Self-Supervised Learning) für die Erkennung von Gesichtsausdrücken aus realen Videodaten ein. Unser Modell kombiniert drei Selbstüberwachende Zielfunktionen: Erstens einen multimodalen Kontrastverlust, der verschiedene Datenmodalitäten desselben Videos im Repräsentationsraum zusammenführt. Zweitens einen multimodalen Clustering-Verlust, der die semantische Struktur der Eingabedaten im Repräsentationsraum beibehält. Drittens einen multimodalen Datenrekonstruktionsverlust. Wir führen eine umfassende Studie über diese multimodale Multitasking-Selbstüberwachende Lernmethode an drei Benchmarks für die Erkennung von Gesichtsausdrücken durch. Hierbei untersuchen wir die Leistungsfähigkeit des Lernens durch verschiedene Kombinationen von Selbstüberwachungs-Aufgaben in der nachgeschalteten Aufgabe zur Erkennung von Gesichtsausdrücken. Unser Modell ConCluGen übertrifft mehrere multimodale selbstüberwachte und vollständig überwachte Baselines auf dem CMU-MOSEI-Datensatz. Unsere Ergebnisse zeigen generell, dass multimodale Selbstüberwachungs-Aufgaben große Leistungsverbesserungen für anspruchsvolle Aufgaben wie die Erkennung von Gesichtsausdrücken bieten und gleichzeitig die Menge an manuell notwendigen Annotationen reduzieren. Wir stellen unsere vortrainierten Modelle sowie den Quellcode öffentlich zur Verfügung.

Mehrfach-Aufgaben-basiertes mehrmodales selbstüberwachtes Lernen für die Erkennung von Gesichtsausdrücken | Neueste Forschungsarbeiten | HyperAI