HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrfach-Aufgaben-basiertes mehrmodales selbstüberwachtes Lernen für die Erkennung von Gesichtsausdrücken

Marah Halawa Florian Blume Pia Bideau Martin Maier Rasha Abdel Rahman Olaf Hellwich

Zusammenfassung

Die menschliche Kommunikation ist multimodal; zum Beispiel umfasst die direkte Interaktion auditive Signale (Sprache) und visuelle Signale (Gesichtsbewegungen und Handgesten). Daher ist es entscheidend, bei der Entwicklung von maschinelles Lernen-basierten Systemen zur Erkennung von Gesichtsausdrücken mehrere Modalitäten zu nutzen. Zudem sollten solche Systeme in Anbetracht der ständig wachsenden Mengen an Videodaten, die menschliche Gesichtsausdrücke erfassen, rohe, nicht annotierte Videos verwenden können, ohne aufwendige Annotationen zu benötigen. In dieser Arbeit setzen wir daher eine Methode des Multitasking-Multimodal-Selbstüberwachenden Lernens (Self-Supervised Learning) für die Erkennung von Gesichtsausdrücken aus realen Videodaten ein. Unser Modell kombiniert drei Selbstüberwachende Zielfunktionen: Erstens einen multimodalen Kontrastverlust, der verschiedene Datenmodalitäten desselben Videos im Repräsentationsraum zusammenführt. Zweitens einen multimodalen Clustering-Verlust, der die semantische Struktur der Eingabedaten im Repräsentationsraum beibehält. Drittens einen multimodalen Datenrekonstruktionsverlust. Wir führen eine umfassende Studie über diese multimodale Multitasking-Selbstüberwachende Lernmethode an drei Benchmarks für die Erkennung von Gesichtsausdrücken durch. Hierbei untersuchen wir die Leistungsfähigkeit des Lernens durch verschiedene Kombinationen von Selbstüberwachungs-Aufgaben in der nachgeschalteten Aufgabe zur Erkennung von Gesichtsausdrücken. Unser Modell ConCluGen übertrifft mehrere multimodale selbstüberwachte und vollständig überwachte Baselines auf dem CMU-MOSEI-Datensatz. Unsere Ergebnisse zeigen generell, dass multimodale Selbstüberwachungs-Aufgaben große Leistungsverbesserungen für anspruchsvolle Aufgaben wie die Erkennung von Gesichtsausdrücken bieten und gleichzeitig die Menge an manuell notwendigen Annotationen reduzieren. Wir stellen unsere vortrainierten Modelle sowie den Quellcode öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp