Association de mots probabiliste pour la classification des actes de dialogue avec des réseaux de neurones récurrents

L’identification de l’acte de dialogue (Dialogue Act, DA) constitue un élément crucial dans la détermination du sens d’un énoncé, notamment pour de nombreuses applications nécessitant une compréhension du langage naturel. Des travaux récents utilisant des réseaux de neurones récurrents (RNN) ont montré des résultats prometteurs lorsqu’ils sont appliqués au problème de classification des DA. Ce travail présente une nouvelle méthode probabiliste de représentation des énoncés, ainsi qu’un modèle de phrase RNN pour la classification des DA hors contexte. Les représentations d’énoncé sont générées à partir de mots-clés sélectionnés en fonction de leur association fréquente avec certains types de DA. Ces représentations probabilistes sont appliquées au corpus Switchboard de DA, et leurs performances sont comparées à celles des embeddings pré-entraînés de mots, utilisant le même modèle de base RNN. Les résultats montrent que la méthode probabiliste atteint une précision globale de 75,48 %, soit une amélioration de 1,8 % par rapport aux représentations basées sur les embeddings de mots. Ces résultats démontrent le potentiel d’utilisation de représentations statistiques d’énoncés, capables de capturer les relations entre mots et actes de dialogue, dans le cadre de la classification des DA.