Hierarchische Fusion für die Online-Multimodale Dialogakt-Klassifikation

Wir schlagen einen Rahmen für die Online-Multimodal-Dialogakt-(DA-)Klassifikation basierend auf rohen Audio-Daten und ASR-generierten Transkripten aktueller und vergangener Äußerungen vor. Bestehende Ansätze zur multimodalen DA-Klassifikation sind durch eine ineffektive Audio-Modellierung und eine späte Fusionsstrategie eingeschränkt. Wir zeigen erhebliche Verbesserungen bei der multimodalen DA-Klassifikation, indem wir die Modalitäten auf einer feineren Granularität integrieren und jüngste Fortschritte in großen Sprach- und Audio-Modellen zur Audio-Feature-Extraktion einbeziehen. Zudem untersuchen wir die Wirksamkeit von Self-Attention- und Cross-Attention-Mechanismen zur Modellierung von Äußerungen und Dialogen für die DA-Klassifikation. Wir erreichen eine signifikante Steigerung des F1-Scores um 3 Prozentpunkte gegenüber aktuellen State-of-the-Art-Modellen auf zwei etablierten DA-Klassifikationsdatensätzen, MRDA und EMOTyDA.