Multimodale Sentimentanalyse unter Verwendung hierarchischer Fusion mit Kontextmodellierung

Die multimodale Sentimentanalyse ist ein sehr dynamisch wachsendes Forschungsfeld. Ein vielversprechendes Gebiet für Verbesserungen in diesem Bereich ist die Optimierung des multimodalen Fusionierungsmechanismus. Wir präsentieren eine neuartige Merkmalsfusionstrategie, die hierarchisch verläuft: Zunächst werden die Modalitäten paarweise fusioniert und erst danach alle drei Modalitäten zusammengeführt. Bei der multimodalen Sentimentanalyse einzelner Äußerungen übertrifft unsere Strategie die konventionelle Merkmalskonnektierung um 1 %, was einer Fehlerrateinsparung von 5 % entspricht. Bei der Äußerungsniveau-Sentimentanalyse multimodaler Videosequenzen, bei denen moderne Methoden Kontextinformationen aus anderen Äußerungen derselben Sequenz berücksichtigen, erreicht unsere hierarchische Fusion bis zu 2,4 % (fast 10 % Fehlerrateinsparung) gegenüber den aktuell verwendeten Konnektionsmethoden. Die Implementierung unserer Methode steht in Form von Open-Source-Code öffentlich zur Verfügung.