Hierarchische Fusion für die Online-Multimodale Dialogakt-Klassifikation
{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

Abstract
Wir schlagen einen Rahmen für die Online-Multimodal-Dialogakt-(DA-)Klassifikation basierend auf rohen Audio-Daten und ASR-generierten Transkripten aktueller und vergangener Äußerungen vor. Bestehende Ansätze zur multimodalen DA-Klassifikation sind durch eine ineffektive Audio-Modellierung und eine späte Fusionsstrategie eingeschränkt. Wir zeigen erhebliche Verbesserungen bei der multimodalen DA-Klassifikation, indem wir die Modalitäten auf einer feineren Granularität integrieren und jüngste Fortschritte in großen Sprach- und Audio-Modellen zur Audio-Feature-Extraktion einbeziehen. Zudem untersuchen wir die Wirksamkeit von Self-Attention- und Cross-Attention-Mechanismen zur Modellierung von Äußerungen und Dialogen für die DA-Klassifikation. Wir erreichen eine signifikante Steigerung des F1-Scores um 3 Prozentpunkte gegenüber aktuellen State-of-the-Art-Modellen auf zwei etablierten DA-Klassifikationsdatensätzen, MRDA und EMOTyDA.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| dialogue-act-classification-on-emotyda | Hierarchical Fusion | Accuracy: 63.42 |
| dialogue-act-classification-on-icsi-meeting | Hierarchical Fusion | Accuracy: 91.8 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.