HyperAIHyperAI

Command Palette

Search for a command to run...

Unüberwachte multimodale Sprachdarstellungen mittels Faltungs-Autoencoder

Panagiotis Koromilas Theodoros Giannakopoulos

Zusammenfassung

Multimodale Sprachanalyse ist ein anspruchsvolles Forschungsfeld, da sie zwei zentrale Anforderungen erfüllen muss: die Kombination verschiedener Modalitäten sowie die Erfassung zeitlicher Informationen. In den letzten Jahren wurden zahlreiche Arbeiten in diesem Bereich vorgestellt, die sich hauptsächlich auf überwachtes Lernen für nachgeschaltete Aufgaben konzentrieren. In diesem Paper schlagen wir vor, universelle, unsupervisierte multimodale Sprachrepräsentationen zu extrahieren, die sich für eine Vielzahl unterschiedlicher Aufgaben einsetzen lassen. Dazu transformieren wir auf Wortebene alignierte multimodale Sequenzen in 2-D-Matrizen und nutzen anschließend konvolutionale Autoencoder, um Embeddings durch die Kombination mehrerer Datensätze zu lernen. Umfangreiche Experimente zu Sentimentanalyse (MOSEI) und Emotionserkennung (IEMOCAP) zeigen, dass die gelernten Repräsentationen bereits mit einem einfachen Logistischen Regressionsmodell nahezu state-of-the-art-Leistung erzielen können. Zudem wird gezeigt, dass unsere Methode äußerst leichtgewichtig ist und sich problemlos auf andere Aufgaben sowie auf unbekannte Daten generalisieren lässt, wobei die Leistung nur minimal sinkt und die Anzahl der Parameter nahezu konstant bleibt. Die vorgeschlagenen multimodalen Repräsentationsmodelle werden öffentlich zugänglich gemacht und sollen die Anwendbarkeit der multimodalen Sprachanalyse nachhaltig fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Unüberwachte multimodale Sprachdarstellungen mittels Faltungs-Autoencoder | Paper | HyperAI