vor 8 Monaten

Zusammenfassung

Die menschliche Kommunikation ist multimodal; zum Beispiel umfasst die direkte Interaktion auditive Signale (Sprache) und visuelle Signale (Gesichtsbewegungen und Handgesten). Daher ist es entscheidend, bei der Entwicklung von maschinelles Lernen-basierten Systemen zur Erkennung von Gesichtsausdrücken mehrere Modalitäten zu nutzen. Zudem sollten solche Systeme in Anbetracht der ständig wachsenden Mengen an Videodaten, die menschliche Gesichtsausdrücke erfassen, rohe, nicht annotierte Videos verwenden können, ohne aufwendige Annotationen zu benötigen. In dieser Arbeit setzen wir daher eine Methode des Multitasking-Multimodal-Selbstüberwachenden Lernens (Self-Supervised Learning) für die Erkennung von Gesichtsausdrücken aus realen Videodaten ein. Unser Modell kombiniert drei Selbstüberwachende Zielfunktionen: Erstens einen multimodalen Kontrastverlust, der verschiedene Datenmodalitäten desselben Videos im Repräsentationsraum zusammenführt. Zweitens einen multimodalen Clustering-Verlust, der die semantische Struktur der Eingabedaten im Repräsentationsraum beibehält. Drittens einen multimodalen Datenrekonstruktionsverlust. Wir führen eine umfassende Studie über diese multimodale Multitasking-Selbstüberwachende Lernmethode an drei Benchmarks für die Erkennung von Gesichtsausdrücken durch. Hierbei untersuchen wir die Leistungsfähigkeit des Lernens durch verschiedene Kombinationen von Selbstüberwachungs-Aufgaben in der nachgeschalteten Aufgabe zur Erkennung von Gesichtsausdrücken. Unser Modell ConCluGen übertrifft mehrere multimodale selbstüberwachte und vollständig überwachte Baselines auf dem CMU-MOSEI-Datensatz. Unsere Ergebnisse zeigen generell, dass multimodale Selbstüberwachungs-Aufgaben große Leistungsverbesserungen für anspruchsvolle Aufgaben wie die Erkennung von Gesichtsausdrücken bieten und gleichzeitig die Menge an manuell notwendigen Annotationen reduzieren. Wir stellen unsere vortrainierten Modelle sowie den Quellcode öffentlich zur Verfügung.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multi-Task-Lernen

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Marah Halawa Florian Blume Pia Bideau Martin Maier Rasha Abdel Rahman Olaf Hellwich

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multi-Task-Lernen

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Marah Halawa Florian Blume Pia Bideau Martin Maier Rasha Abdel Rahman Olaf Hellwich

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Mehrfach-Aufgaben-basiertes mehrmodales selbstüberwachtes Lernen für die Erkennung von Gesichtsausdrücken

Marah Halawa Florian Blume Pia Bideau Martin Maier Rasha Abdel Rahman Olaf Hellwich

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mehrfach-Aufgaben-basiertes mehrmodales selbstüberwachtes Lernen für die Erkennung von Gesichtsausdrücken

Marah Halawa Florian Blume Pia Bideau Martin Maier Rasha Abdel Rahman Olaf Hellwich

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mehrfach-Aufgaben-basiertes mehrmodales selbstüberwachtes Lernen für die Erkennung von Gesichtsausdrücken

Marah Halawa Florian Blume Pia Bideau Martin Maier Rasha Abdel Rahman Olaf Hellwich

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters