Amélioration de l’analyse AMR grâce au pré-entraînement séquentiel-à-séquentiel

Dans la littérature, la recherche sur la représentation abstraite du sens (AMR) est fortement limitée par la taille des jeux de données humainement annotés, qui joue un rôle crucial dans la construction d’un parseur AMR performant. Pour atténuer cette contrainte liée à la taille des données, les modèles pré-entraînés attirent de plus en plus d’attention dans le domaine du parsing AMR. Toutefois, les modèles pré-entraînés précédents, tels que BERT, sont conçus à usage général et peuvent ne pas fonctionner de manière optimale pour la tâche spécifique du parsing AMR. Dans cet article, nous nous concentrons sur le parsing AMR séquence-à-séquence (seq2seq) et proposons une approche d’entraînement préalable seq2seq, permettant de construire des modèles pré-entraînés de manière individuelle ou conjointe sur trois tâches pertinentes : la traduction automatique, le parsing syntaxique et le parsing AMR lui-même. En outre, nous étendons la méthode de fine-tuning classique à une méthode de fine-tuning basée sur l’apprentissage multi-tâches, qui vise à optimiser les performances du parsing AMR tout en préservant au mieux les réponses des modèles pré-entraînés. Les résultats expérimentaux étendus sur deux jeux de données de référence en anglais montrent que les modèles pré-entraînés, tant individuels que conjoints, améliorent significativement les performances (par exemple, de 71,5 à 80,2 sur AMR 2.0), atteignant ainsi l’état de l’art. Ces résultats sont particulièrement encourageants, car ils sont obtenus avec des modèles seq2seq, plutôt que des modèles complexes. Nous mettons à disposition notre code et nos modèles à l’adresse suivante : https://github.com/xdqkid/S2S-AMR-Parser.