Reconnaissance des Actes de Parole par un Réseau Structuré Attentif à la CRF

La reconnaissance des actes de dialogue (DAR) est un problème complexe dans l'interprétation des dialogues, visant à associer des étiquettes sémantiques aux énoncés et à caractériser l'intention du locuteur. Actuellement, de nombreuses approches existantes formulent le problème de la DAR, allant de la classification multiclasse à la prédiction structurée, qui souffrent d'extensions de fonctionnalités manuelles et de dépendances structurelles contextuelles attentives. Dans cet article, nous abordons le problème de la DAR sous l'angle de l'extension des dépendances structurelles plus riches du champ aléatoire conditionnel (CRF) sans abandonner l'entraînement bout-à-bout. Nous intégrons une inférence sémantique hiérarchique avec un mécanisme de mémoire dans la modélisation des énoncés. Nous étendons ensuite le réseau d'attention structurée au niveau du champ aléatoire conditionnel en chaîne linéaire, prenant en compte à la fois les énoncés contextuels et les actes de dialogue correspondants. Les expériences approfondies menées sur deux principaux jeux de données de référence, Switchboard Dialogue Act (SWDA) et Meeting Recorder Dialogue Act (MRDA), montrent que notre méthode obtient de meilleures performances que les autres solutions d'avant-garde pour ce problème. Il est remarquable que notre méthode se rapproche presque du niveau des annotations humaines sur SWDA, avec un écart inférieur à 2%.