HyperAIHyperAI
vor 19 Tagen

Verständnis von Gesprächen mittels relationalen zeitlichen Graph-Neural-Networks mit ergänzender cross-modaler Interaktion

Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le
Verständnis von Gesprächen mittels relationalen zeitlichen Graph-Neural-Networks mit ergänzender cross-modaler Interaktion
Abstract

Die Erkennung von Emotionen ist eine entscheidende Aufgabe für das Verständnis menschlicher Gespräche. Sie wird mit dem Konzept multimodaler Daten – beispielsweise Sprache, Stimme und Gesichtsausdrücke – zunehmend herausfordernder. Als typische Lösung werden globale und lokale Kontextinformationen genutzt, um für jede einzelne Aussage, also jedes Äußerungselement, in einem Dialog die emotionale Etikettierung vorherzusagen. Insbesondere kann die globale Darstellung durch die Modellierung von multimodalen Interaktionen auf Gesprächsebene erfasst werden. Die lokale Information wird häufig anhand der zeitlichen Dynamik der Sprecher oder emotionaler Veränderungen abgeleitet, wobei jedoch wichtige Faktoren auf der Äußerungsebene vernachlässigt werden. Zudem nutzen die meisten bestehenden Ansätze gefundene Merkmale mehrerer Modalitäten in einer einheitlichen Eingabe, ohne spezifische Modality-Vertretungen zu nutzen. Ausgehend von diesen Herausforderungen schlagen wir den Relational Temporal Graph Neural Network mit ergänzender cross-modaler Interaktion (CORECT) vor – ein neuartiges neuronales Netzwerkframework, das effektiv multimodale Interaktionen auf Gesprächsebene sowie zeitliche Abhängigkeiten auf Äußerungsebene in einer modality-spezifischen Weise für das Gesprächsverständnis erfasst. Umfangreiche Experimente belegen die Wirksamkeit von CORECT anhand seiner state-of-the-art Ergebnisse auf den Datensätzen IEMOCAP und CMU-MOSEI für die multimodale Emotionserkennung in Gesprächen (multimodal ERC).

Verständnis von Gesprächen mittels relationalen zeitlichen Graph-Neural-Networks mit ergänzender cross-modaler Interaktion | Forschungsarbeiten | HyperAI