HyperAIHyperAI

Command Palette

Search for a command to run...

Hierarchische Fusion für die Online-Multimodale Dialogakt-Klassifikation

Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah

Zusammenfassung

Wir schlagen einen Rahmen für die Online-Multimodal-Dialogakt-(DA-)Klassifikation basierend auf rohen Audio-Daten und ASR-generierten Transkripten aktueller und vergangener Äußerungen vor. Bestehende Ansätze zur multimodalen DA-Klassifikation sind durch eine ineffektive Audio-Modellierung und eine späte Fusionsstrategie eingeschränkt. Wir zeigen erhebliche Verbesserungen bei der multimodalen DA-Klassifikation, indem wir die Modalitäten auf einer feineren Granularität integrieren und jüngste Fortschritte in großen Sprach- und Audio-Modellen zur Audio-Feature-Extraktion einbeziehen. Zudem untersuchen wir die Wirksamkeit von Self-Attention- und Cross-Attention-Mechanismen zur Modellierung von Äußerungen und Dialogen für die DA-Klassifikation. Wir erreichen eine signifikante Steigerung des F1-Scores um 3 Prozentpunkte gegenüber aktuellen State-of-the-Art-Modellen auf zwei etablierten DA-Klassifikationsdatensätzen, MRDA und EMOTyDA.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp