HyperAI

Résumé

Nous proposons un cadre pour la classification en ligne des actes de dialogue multimodaux (DA) basé sur des enregistrements audio bruts et des transcriptions générées par reconnaissance automatique de la parole (ASR) des énoncés courants et passés. Les approches existantes de classification multimodale des actes de dialogue sont limitées par une modélisation audio inefficace et une fusion tardive des modalités. Nous démontrons des améliorations significatives dans la classification multimodale des actes de dialogue en intégrant les modalités à un niveau plus granulaire et en exploitant les avancées récentes des grands modèles linguistiques et audio pour l'extraction des caractéristiques audio. Nous étudions également l'efficacité des mécanismes d'attention auto- et croisée dans la modélisation des énoncés et des dialogues pour la classification des actes de dialogue. Nos résultats montrent une augmentation substantielle de 3 points de pourcentage du score F1 par rapport aux modèles les plus avancés actuellement disponibles sur deux jeux de données emblématiques de classification des actes de dialogue, MRDA et EMOTyDA.

Benchmark	Méthodologie	Métriques
dialogue-act-classification-on-emotyda	Hierarchical Fusion	Accuracy: 63.42
dialogue-act-classification-on-icsi-meeting	Hierarchical Fusion	Accuracy: 91.8

Benchmark

Méthodologie

Métriques

dialogue-act-classification-on-emotyda

Hierarchical Fusion

Accuracy: 63.42

dialogue-act-classification-on-icsi-meeting

Hierarchical Fusion

Accuracy: 91.8

Fusion hiérarchique pour la classification en ligne des actes de dialogue multimodaux

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Fusion hiérarchique pour la classification en ligne des actes de dialogue multimodaux

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters