MultiMAE-DER: Multimodaler Maskierter Autoencoder für die Dynamische Emotionserkennung

Dieses Papier stellt einen neuen Ansatz zur Verarbeitung multimodaler Daten für die dynamische Emotionserkennung vor, der als Multimodaler Maskierter Autoencoder für Dynamische Emotionserkennung (MultiMAE-DER) bezeichnet wird. Der MultiMAE-DER nutzt die eng miteinander verknüpften Repräsentationsinformationen in räumlich-zeitlichen Sequenzen sowohl im visuellen als auch im akustischen Modus. Durch die Nutzung eines vorge trainierten maskierten Autoencoder-Modells wird der MultiMAE-DER durch einfache und direkte Feinabstimmung erreicht. Die Leistung des MultiMAE-DER wird verbessert, indem sechs Fusionsstrategien für multimodale Eingangsequenzen optimiert werden. Diese Strategien behandeln dynamische Merkmalskorrelationen in cross-domain-Daten über räumliche, zeitliche und räumlich-zeitliche Sequenzen hinweg. Im Vergleich zu den besten bisher bekannten multimodalen überwachten Lernmodellen für dynamische Emotionserkennung erhöht der MultiMAE-DER das gewichtete durchschnittliche Recall (WAR) um 4,41 % auf dem RAVDESS-Datensatz und um 2,06 % auf dem CREMAD. Darüber hinaus erreicht der MultiMAE-DER im Vergleich zum besten bisher bekannten Modell des multimodalen selbstüberwachten Lernens eine 1,86 %- höhere WAR auf dem IEMOCAP-Datensatz.