HLT@SUDA à SemEval-2019 Tâche 1 : Analyse syntaxique UCCA sous forme d'arbre constituent

Cet article présente une approche simple de parsing des graphes sémantiques UCCA. L'idée principale consiste à convertir un graphe sémantique UCCA en un arbre constituent, en introduisant intentionnellement des étiquettes supplémentaires pour marquer les arêtes distantes et les nœuds discontinus, afin de faciliter leur récupération ultérieure. Grâce à cette transformation, nous pouvons exploiter efficacement les techniques existantes de parsing syntaxique. Sur la base des statistiques des données, nous récupérons directement les nœuds discontinus à partir des étiquettes produites par le parseur constituent, et utilisons un modèle de classification biaffine pour restaurer les arêtes distantes plus complexes. Le modèle de classification et le parseur constituent sont entraînés simultanément dans un cadre d'apprentissage multi-tâches. Dans les pistes ouvertes, nous intégrons le multilingual BERT comme caractéristiques supplémentaires. Notre système obtient la première place sur les six pistes anglaises et allemandes, qu’elles soient fermées ou ouvertes, parmi les sept systèmes participants. Pour la septième piste translingue, où les données d’entraînement disponibles pour le français sont très limitées, nous proposons une approche basée sur des embeddings de langues afin d’exploiter les données d’entraînement en anglais et allemand. Dans cette piste, notre résultat se classe deuxième.