vor 17 Tagen

Unüberwachte multimodale Sprachdarstellungen mittels Faltungs-Autoencoder

Panagiotis Koromilas, Theodoros Giannakopoulos

Abstract

Multimodale Sprachanalyse ist ein anspruchsvolles Forschungsfeld, da sie zwei zentrale Anforderungen erfüllen muss: die Kombination verschiedener Modalitäten sowie die Erfassung zeitlicher Informationen. In den letzten Jahren wurden zahlreiche Arbeiten in diesem Bereich vorgestellt, die sich hauptsächlich auf überwachtes Lernen für nachgeschaltete Aufgaben konzentrieren. In diesem Paper schlagen wir vor, universelle, unsupervisierte multimodale Sprachrepräsentationen zu extrahieren, die sich für eine Vielzahl unterschiedlicher Aufgaben einsetzen lassen. Dazu transformieren wir auf Wortebene alignierte multimodale Sequenzen in 2-D-Matrizen und nutzen anschließend konvolutionale Autoencoder, um Embeddings durch die Kombination mehrerer Datensätze zu lernen. Umfangreiche Experimente zu Sentimentanalyse (MOSEI) und Emotionserkennung (IEMOCAP) zeigen, dass die gelernten Repräsentationen bereits mit einem einfachen Logistischen Regressionsmodell nahezu state-of-the-art-Leistung erzielen können. Zudem wird gezeigt, dass unsere Methode äußerst leichtgewichtig ist und sich problemlos auf andere Aufgaben sowie auf unbekannte Daten generalisieren lässt, wobei die Leistung nur minimal sinkt und die Anzahl der Parameter nahezu konstant bleibt. Die vorgeschlagenen multimodalen Repräsentationsmodelle werden öffentlich zugänglich gemacht und sollen die Anwendbarkeit der multimodalen Sprachanalyse nachhaltig fördern.