HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Sprachanalyse in natürlicher Umgebung: CMU-MOSEI-Datensatz und interpretierbarer dynamischer Fusionsgraph

Louis-Philippe Morency AmirAli Bagher Zadeh Soujanya Poria Paul Pu Liang Erik Cambria

Zusammenfassung

Die Analyse menschlicher multimodaler Sprache ist ein sich entwickelndes Forschungsfeld im Bereich der natürlichen Sprachverarbeitung (NLP). Diese Sprache ist intrinsisch multimodal (heterogen), sequenziell und asynchron und setzt sich aus den Modalitäten Sprache (Wörter), Visuelles (Ausdrücke) und Akustisches (Paralinguistische Merkmale) zusammen, die alle in Form asynchron koordinierter Sequenzen vorliegen. Aus ressourcenbezogener Sicht besteht ein echter Bedarf an großen Datensätzen, die umfassende Studien dieser Sprachform ermöglichen. In diesem Paper stellen wir CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI) vor, den bisher umfangreichsten Datensatz für die Sentimentanalyse und Emotionserkennung. Anhand von Daten aus CMU-MOSEI und einer neuartigen multimodalen Fusionsmethode namens Dynamic Fusion Graph (DFG) führen wir Experimente durch, um zu untersuchen, wie die verschiedenen Modalitäten in der menschlichen multimodalen Sprache miteinander interagieren. Im Gegensatz zu zuvor vorgeschlagenen Fusionsverfahren ist DFG hoch interpretierbar und erreicht eine konkurrenzfähige Leistung im Vergleich zum bisherigen Stand der Technik.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp