Kontextuelle intermodale Aufmerksamkeit für multimodale Sentimentanalyse

Die multimodale Sentimentanalyse birgt zahlreiche Herausforderungen, wobei eine zentrale Aufgabe die effektive Kombination unterschiedlicher Eingabemodalitäten – nämlich Text, visuelle und akustische Daten – darstellt. In diesem Artikel präsentieren wir einen auf rekurrenten neuronalen Netzen basierenden multimodalen Aufmerksamkeitsansatz, der kontextuelle Informationen für die Sentimentvorhersage auf Sprecherebene nutzt. Der vorgeschlagene Ansatz wendet Aufmerksamkeit auf multimodale, mehrsprachige Darstellungen an und strebt danach, die jeweils beitragenden Merkmale innerhalb dieser Darstellungen zu lernen. Wir evaluieren unseren Ansatz an zwei etablierten Benchmark-Datensätzen für multimodale Sentimentanalyse, nämlich dem CMU Multi-modal Opinion-level Sentiment Intensity (CMU-MOSI)-Korpus und dem kürzlich veröffentlichten CMU Multi-modal Opinion Sentiment and Emotion Intensity (CMU-MOSEI)-Korpus. Die Evaluierungsergebnisse zeigen die Wirksamkeit unseres Ansatzes mit Genauigkeiten von 82,31 % und 79,80 % für die MOSI- und MOSEI-Datensätze, jeweils etwa zwei bzw. einen Punkt bessere Leistung im Vergleich zu den derzeit besten Modellen für diese Datensätze.