Multimodale Sprachanalyse in natürlicher Umgebung: CMU-MOSEI-Datensatz und interpretierbarer dynamischer Fusionsgraph

Die Analyse menschlicher multimodaler Sprache ist ein sich entwickelndes Forschungsfeld im Bereich der natürlichen Sprachverarbeitung (NLP). Diese Sprache ist intrinsisch multimodal (heterogen), sequenziell und asynchron und setzt sich aus den Modalitäten Sprache (Wörter), Visuelles (Ausdrücke) und Akustisches (Paralinguistische Merkmale) zusammen, die alle in Form asynchron koordinierter Sequenzen vorliegen. Aus ressourcenbezogener Sicht besteht ein echter Bedarf an großen Datensätzen, die umfassende Studien dieser Sprachform ermöglichen. In diesem Paper stellen wir CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI) vor, den bisher umfangreichsten Datensatz für die Sentimentanalyse und Emotionserkennung. Anhand von Daten aus CMU-MOSEI und einer neuartigen multimodalen Fusionsmethode namens Dynamic Fusion Graph (DFG) führen wir Experimente durch, um zu untersuchen, wie die verschiedenen Modalitäten in der menschlichen multimodalen Sprache miteinander interagieren. Im Gegensatz zu zuvor vorgeschlagenen Fusionsverfahren ist DFG hoch interpretierbar und erreicht eine konkurrenzfähige Leistung im Vergleich zum bisherigen Stand der Technik.