Un cadre d'apprentissage de représentation pour le traitement syntaxique transféré multi-sources
Le transfert de modèles multilingues s’est avéré être une approche prometteuse pour développer des analyseurs syntaxiques (parsers) pour les langues à faible ressource, lorsque des arbres annotés (treebanks) ne sont pas disponibles. Les principaux obstacles liés à cette approche de transfert de modèles sont doubles : 1. les caractéristiques lexicales ne sont pas directement transférables d'une langue à une autre ; 2. les structures syntaxiques spécifiques à la langue cible sont difficiles à restaurer. Pour surmonter ces deux défis, nous proposons un cadre novateur d’apprentissage de représentations pour le transfert multi-source en analyse syntaxique. Notre cadre permet de réaliser un transfert multi-source en utilisant directement toutes les caractéristiques lexicales. En évaluant sur les treebanks universels de Google (v2.0), nos meilleurs modèles atteignent une amélioration absolue de 6,53 % en score moyen d’attachement étiqueté (labeled attachment score), par rapport aux modèles de transfert multi-source délexicalisés. Nous surpassons également de manière significative le système de transfert d’état de l’art proposé récemment.