vor 2 Monaten

MultiMAE-DER: Multimodaler Maskierter Autoencoder für die Dynamische Emotionserkennung

Peihao Xiang; Chaohao Lin; Kaida Wu; Ou Bai

Abstract

Dieses Papier stellt einen neuen Ansatz zur Verarbeitung multimodaler Daten für die dynamische Emotionserkennung vor, der als Multimodaler Maskierter Autoencoder für Dynamische Emotionserkennung (MultiMAE-DER) bezeichnet wird. Der MultiMAE-DER nutzt die eng miteinander verknüpften Repräsentationsinformationen in räumlich-zeitlichen Sequenzen sowohl im visuellen als auch im akustischen Modus. Durch die Nutzung eines vorge trainierten maskierten Autoencoder-Modells wird der MultiMAE-DER durch einfache und direkte Feinabstimmung erreicht. Die Leistung des MultiMAE-DER wird verbessert, indem sechs Fusionsstrategien für multimodale Eingangsequenzen optimiert werden. Diese Strategien behandeln dynamische Merkmalskorrelationen in cross-domain-Daten über räumliche, zeitliche und räumlich-zeitliche Sequenzen hinweg. Im Vergleich zu den besten bisher bekannten multimodalen überwachten Lernmodellen für dynamische Emotionserkennung erhöht der MultiMAE-DER das gewichtete durchschnittliche Recall (WAR) um 4,41 % auf dem RAVDESS-Datensatz und um 2,06 % auf dem CREMAD. Darüber hinaus erreicht der MultiMAE-DER im Vergleich zum besten bisher bekannten Modell des multimodalen selbstüberwachten Lernens eine 1,86 %- höhere WAR auf dem IEMOCAP-Datensatz.