HyperAI

Abstract

Wir schlagen einen Rahmen für die Online-Multimodal-Dialogakt-(DA-)Klassifikation basierend auf rohen Audio-Daten und ASR-generierten Transkripten aktueller und vergangener Äußerungen vor. Bestehende Ansätze zur multimodalen DA-Klassifikation sind durch eine ineffektive Audio-Modellierung und eine späte Fusionsstrategie eingeschränkt. Wir zeigen erhebliche Verbesserungen bei der multimodalen DA-Klassifikation, indem wir die Modalitäten auf einer feineren Granularität integrieren und jüngste Fortschritte in großen Sprach- und Audio-Modellen zur Audio-Feature-Extraktion einbeziehen. Zudem untersuchen wir die Wirksamkeit von Self-Attention- und Cross-Attention-Mechanismen zur Modellierung von Äußerungen und Dialogen für die DA-Klassifikation. Wir erreichen eine signifikante Steigerung des F1-Scores um 3 Prozentpunkte gegenüber aktuellen State-of-the-Art-Modellen auf zwei etablierten DA-Klassifikationsdatensätzen, MRDA und EMOTyDA.

Benchmark	Methodik	Metriken
dialogue-act-classification-on-emotyda	Hierarchical Fusion	Accuracy: 63.42
dialogue-act-classification-on-icsi-meeting	Hierarchical Fusion	Accuracy: 91.8

Benchmark

Methodik

Metriken

dialogue-act-classification-on-emotyda

Hierarchical Fusion

Accuracy: 63.42

dialogue-act-classification-on-icsi-meeting

Hierarchical Fusion

Accuracy: 91.8

Hierarchische Fusion für die Online-Multimodale Dialogakt-Klassifikation

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Hierarchische Fusion für die Online-Multimodale Dialogakt-Klassifikation

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters