Fusion hiérarchique pour la classification en ligne des actes de dialogue multimodaux

Nous proposons un cadre pour la classification en ligne des actes de dialogue multimodaux (DA) basé sur des enregistrements audio bruts et des transcriptions générées par reconnaissance automatique de la parole (ASR) des énoncés courants et passés. Les approches existantes de classification multimodale des actes de dialogue sont limitées par une modélisation audio inefficace et une fusion tardive des modalités. Nous démontrons des améliorations significatives dans la classification multimodale des actes de dialogue en intégrant les modalités à un niveau plus granulaire et en exploitant les avancées récentes des grands modèles linguistiques et audio pour l'extraction des caractéristiques audio. Nous étudions également l'efficacité des mécanismes d'attention auto- et croisée dans la modélisation des énoncés et des dialogues pour la classification des actes de dialogue. Nos résultats montrent une augmentation substantielle de 3 points de pourcentage du score F1 par rapport aux modèles les plus avancés actuellement disponibles sur deux jeux de données emblématiques de classification des actes de dialogue, MRDA et EMOTyDA.