HyperAIHyperAI
vor 3 Monaten

Ein facialausdrucksbewusstes multimodales Multi-Task-Lernframework zur Emotionserkennung in Multi-Party-Konversationen

{Shijin Wang, Rui Xia, Jianfei Yu, Wenjie Zheng}
Ein facialausdrucksbewusstes multimodales Multi-Task-Lernframework zur Emotionserkennung in Multi-Party-Konversationen
Abstract

Die multimodale Emotionserkennung in mehrparteilichen Gesprächen (Multimodal Emotion Recognition in Multiparty Conversations, MERMC) hat in letzter Zeit erhebliche Aufmerksamkeit erhalten. Aufgrund der Komplexität visueller Szenen in mehrparteilichen Gesprächen konzentrieren sich die meisten vorangegangenen MERMC-Studien hauptsächlich auf Text- und Audio-Modalitäten und vernachlässigen dabei visuelle Informationen. In jüngster Zeit haben mehrere Arbeiten vorgeschlagen, Gesichtssequenzen als visuelle Merkmale zu extrahieren, und zeigten so die Bedeutung visueller Informationen für MERMC. Allerdings führt die Extraktion einer Gesichtssequenz durch bisherige Methoden für eine gegebene Äußerung häufig zu einer Mischung aus Gesichtern mehrerer Personen, was zwangsläufig Rauschen in die Emotionserkennung des tatsächlichen Sprechers einführt. Um dieses Problem anzugehen, schlagen wir einen zweistufigen Ansatz namens Facial expression-aware Multimodal Multi-Task learning (FacialMMT) vor. Konkret wird zunächst ein Pipeline-Verfahren entwickelt, um die Gesichtssequenz des jeweiligen Sprechers jeder Äußerung zu extrahieren, das aus multimodaler Gesichtserkennung, unsupervisierter Gesichtsclustering und Gesichtsübereinstimmung besteht. Unter Verwendung der extrahierten Gesichtssequenzen stellen wir ein multimodales, facial expression-orientiertes Emotionserkennungsmodell vor, das die frame-basierten Gesichtsausdrucksverteilungen nutzt, um die Äußerungs-basierte Emotionserkennung mittels Multi-Task-Lernen zu verbessern. Experimente belegen die Wirksamkeit des vorgeschlagenen FacialMMT-Frameworks auf der Benchmark-Datenbank MELD. Der Quellcode ist öffentlich unter https://github.com/NUSTM/FacialMMT verfügbar.