HyperAIHyperAI
vor 2 Monaten

Mehrstufiges Aufmerksamkeits-Recurrentes Netzwerk zur Verstehensanalyse menschlicher Kommunikation

Amir Zadeh; Paul Pu Liang; Soujanya Poria; Prateek Vij; Erik Cambria; Louis-Philippe Morency
Mehrstufiges Aufmerksamkeits-Recurrentes Netzwerk zur Verstehensanalyse menschlicher Kommunikation
Abstract

Die menschliche direkte Kommunikation ist ein komplexes multimodales Signal. Wir verwenden Wörter (Sprachmodus), Gesten (Sehmodus) und Tonänderungen (akustischer Modus), um unsere Absichten zu vermitteln. Menschen verarbeiten und verstehen diese Art der Kommunikation mühelos, jedoch stellt das Verstehen dieser Kommunikationsform für künstliche Intelligenz (KI) eine erhebliche Herausforderung dar. KI muss jedes Modul verstehen und die Wechselwirkungen zwischen ihnen erkennen, die die menschliche Kommunikation prägen. In dieser Arbeit stellen wir eine neuartige neuronale Architektur zur Verständnis der menschlichen Kommunikation vor, die als Multi-Aufmerksamkeits-Rekurrentes Netzwerk (MARN) bezeichnet wird. Die Hauptstärke unseres Modells liegt in der Entdeckung von Wechselwirkungen zwischen den Modalitäten über die Zeit hinweg durch ein neuronales Komponenten namens Multi-Aufmerksamkeits-Block (MAB) und dem Speichern dieser Interaktionen im hybriden Gedächtnis eines rekurrenten Komponenten, des Long-Short Term Hybrid Memory (LSTHM). Wir führen umfangreiche Vergleiche auf sechs öffentlich zugänglichen Datensätzen für multimodale Sentimentanalyse, Sprecheraffekt-Erkennung und Emotionserkennung durch. MARN zeigt auf allen Datensätzen Spitzenleistungen.请注意,这里有一些术语的翻译:- Multi-attention Recurrent Network: Multi-Aufmerksamkeits-Rekurrentes Netzwerk (MARN)- Multi-attention Block: Multi-Aufmerksamkeits-Block (MAB)- Long-short Term Hybrid Memory: Long-Short Term Hybrid Memory (LSTHM)这些术语在德语中没有通用的翻译,因此保留了英文缩写并在首次出现时提供了德语解释。