Adversarial Multimodal Domain Transfer für die Video-Level Sentiment-Analyse
Die Sentimentanalyse auf Videosequenzebene ist eine anspruchsvolle Aufgabe, die Systeme erfordert, die diskriminative multimodale Darstellungen erzeugen, welche die Unterschiede in der Stimmung über verschiedene Modalitäten hinweg erfassen können. Aufgrund der unterschiedlichen Verteilungen verschiedener Modalitäten und der Tatsache, dass einheitliche multimodale Labels nicht immer für die einmodale Lernung geeignet sind, nimmt der Abstand zwischen den einmodalen Darstellungen zu und behindert so das Lernen diskriminativer multimodaler Darstellungen. In diesem Artikel schlagen wir daher einen VAE-basierten adversarialen multimodalen Domänenübergang (VAE-AMDT) vor, um diskriminativere multimodale Darstellungen zu erzielen, die die Leistung der Systeme weiter verbessern. Dieser wird gemeinsam mit einem Multi-Attention-Modul trainiert, um die Distanz zwischen den einmodalen Darstellungen zu verringern. Zunächst wenden wir einen variationalen Autoencoder (VAE) an, um visuelle, sprachliche und akustische Darstellungen einer gemeinsamen Verteilung anzupassen, und führen anschließend adversariales Training ein, um alle einmodalen Darstellungen in einen gemeinsamen Einbettungsraum zu überführen. Dadurch können wir die verschiedenen Modalitäten auf diesem gemeinsamen Einbettungsraum mittels eines Multi-Attention-Moduls fusionieren, das aus Selbst-Attention, Kreuz-Attention und Dreifach-Attention besteht, um wichtige stimmungsausdrückende Darstellungen über Zeit und Modalität hinweg hervorzuheben. Unsere Methode verbessert die F1-Score des derzeitigen State-of-the-Art um 3,6 % auf den MOSI- und um 2,9 % auf den MOSEI-Datenbanken und belegt somit die Wirksamkeit unserer Methode zur Erzeugung diskriminativer multimodaler Darstellungen für die Sentimentanalyse auf Videosequenzebene.