Ensemble de prédictions sur les graphes pour l'analyse syntaxique AMR

Dans de nombreuses tâches d’apprentissage automatique, les modèles sont entraînés pour prédire des données structurées telles que des graphes. Par exemple, en traitement du langage naturel, il est courant de parser les textes en arbres de dépendance ou en graphes de représentation sémantique abstraite (AMR). D’un autre côté, les méthodes d’ensembles combinent les prédictions issues de plusieurs modèles afin de générer une nouvelle prédiction plus robuste et plus précise que celles des modèles individuels. Dans la littérature, de nombreuses techniques d’ensemblage ont été proposées pour des problèmes de classification ou de régression, mais l’ensemblage de prédictions de graphes n’a pas été suffisamment étudié. Dans ce travail, nous formalisons ce problème comme celui de l’extraction du plus grand graphe le plus soutenu par une collection de prédictions de graphes. Étant donné que ce problème est NP-dur, nous proposons un algorithme heuristique efficace pour approximer la solution optimale. Pour valider notre approche, nous avons mené des expériences sur des problèmes de parsing AMR. Les résultats expérimentaux démontrent que la méthode proposée permet de combiner les forces des meilleurs parsers AMR actuels afin de produire de nouvelles prédictions plus précises que celles de n’importe quel modèle individuel sur cinq jeux de données standards.