HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Hierarchische Fusion für die Online-Multimodale Dialogakt-Klassifikation

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

Hierarchische Fusion für die Online-Multimodale Dialogakt-Klassifikation

Abstract

Wir schlagen einen Rahmen für die Online-Multimodal-Dialogakt-(DA-)Klassifikation basierend auf rohen Audio-Daten und ASR-generierten Transkripten aktueller und vergangener Äußerungen vor. Bestehende Ansätze zur multimodalen DA-Klassifikation sind durch eine ineffektive Audio-Modellierung und eine späte Fusionsstrategie eingeschränkt. Wir zeigen erhebliche Verbesserungen bei der multimodalen DA-Klassifikation, indem wir die Modalitäten auf einer feineren Granularität integrieren und jüngste Fortschritte in großen Sprach- und Audio-Modellen zur Audio-Feature-Extraktion einbeziehen. Zudem untersuchen wir die Wirksamkeit von Self-Attention- und Cross-Attention-Mechanismen zur Modellierung von Äußerungen und Dialogen für die DA-Klassifikation. Wir erreichen eine signifikante Steigerung des F1-Scores um 3 Prozentpunkte gegenüber aktuellen State-of-the-Art-Modellen auf zwei etablierten DA-Klassifikationsdatensätzen, MRDA und EMOTyDA.

Benchmarks

BenchmarkMethodikMetriken
dialogue-act-classification-on-emotydaHierarchical Fusion
Accuracy: 63.42
dialogue-act-classification-on-icsi-meetingHierarchical Fusion
Accuracy: 91.8

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hierarchische Fusion für die Online-Multimodale Dialogakt-Klassifikation | Forschungsarbeiten | HyperAI