HyperAIHyperAI
vor 11 Tagen

Selbst-Attention-Fusion für die audiovisuelle Emotionserkennung mit unvollständigen Daten

Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj
Selbst-Attention-Fusion für die audiovisuelle Emotionserkennung mit unvollständigen Daten
Abstract

In diesem Artikel betrachten wir das Problem der multimodalen Datenanalyse am Beispiel der audiovisuellen Emotionserkennung. Wir stellen eine Architektur vor, die in der Lage ist, direkt aus Rohdaten zu lernen, und beschreiben drei Varianten dieser Architektur mit unterschiedlichen Mechanismen zur Modalitätenfusion. Während die meisten vorherigen Arbeiten von der idealen Annahme ausgehen, dass beide Modalitäten zu jedem Zeitpunkt während der Inferenz verfügbar sind, evaluieren wir die Robustheit des Modells in unbeschränkten Szenarien, in denen eine Modality fehlt oder verrauscht ist, und schlagen eine Methode zur Minderung dieser Einschränkungen in Form eines Modality Dropout vor. Vor allem stellen wir fest, dass dieser Ansatz nicht nur die Leistung erheblich verbessert, wenn eine Modality fehlt oder verrauscht ist, sondern auch die Leistung in der standardmäßigen idealen Testumgebung steigert und somit die konkurrierenden Methoden übertrifft.

Selbst-Attention-Fusion für die audiovisuelle Emotionserkennung mit unvollständigen Daten | Neueste Forschungsarbeiten | HyperAI