Parsing à base de transition avec Stack-Transformers

La modélisation de l’état du parseur est essentielle pour obtenir de bons résultats en parsing basé sur des transitions. Les réseaux de neurones récurrents ont considérablement amélioré les performances des systèmes basés sur des transitions en modélisant soit l’état global, comme dans les parseurs stack-LSTM, soit l’état local des caractéristiques contextualisées, comme dans les parseurs Bi-LSTM. Étant donné le succès récent des architectures Transformer dans les systèmes de parsing, ce travail explore des modifications de l’architecture Transformer séquence-à-séquence afin de modéliser soit l’état global, soit l’état local dans le cadre du parsing basé sur des transitions. Nous montrons que des ajustements apportés au mécanisme d’attention croisée du Transformer renforcent significativement les performances sur les tâches de parsing dépendance et de représentation sémantique abstraite (AMR), en particulier pour les modèles plus petits ou en présence de données d’entraînement limitées.