CTRAN : Réseau basé sur CNN-Transformer pour la compréhension du langage naturel

La détection d’intention et le remplissage de champs (slot-filling) constituent les deux tâches principales en compréhension du langage naturel. Dans cette étude, nous proposons CTRAN, une nouvelle architecture encodage-décodage basée sur un modèle hybride CNN-Transformer pour la détection d’intention et le remplissage de champs. Dans l’encodeur, nous utilisons BERT, suivi de plusieurs couches de convolution, puis réorganisons la sortie en une séquence de caractéristiques par fenêtre. Nous appliquons ensuite des encodeurs Transformer empilés après cette séquence de caractéristiques par fenêtre. Pour le décodeur de détection d’intention, nous exploitons une attention auto-attentive suivie d’une couche linéaire. Dans le décodeur de remplissage de champs, nous introduisons un décodeur Transformer aligné, qui utilise un masque diagonal nul afin d’aligner les étiquettes de sortie sur les tokens d’entrée. Nous évaluons notre réseau sur les jeux de données ATIS et SNIPS, et surpassons l’état de l’art actuel en remplissage de champs sur les deux jeux de données. En outre, nous intégrons le modèle linguistique comme embeddings de mots, et montrons que cette stratégie permet d’obtenir de meilleurs résultats par rapport à une utilisation du modèle linguistique comme encodeur.