Libérer le pouvoir des analyseurs discourse neuronaux – Une approche sensible au contexte et à la structure fondée sur un préentraînement à grande échelle

L’analyse discursive basée sur RST est une tâche importante en traitement automatique du langage (NLP), aux nombreuses applications en aval telles que la synthèse de résumés, la traduction automatique et l’analyse d’opinions. Dans cet article, nous présentons un parseur discursif simple mais hautement précis, intégrant les derniers modèles linguistiques contextuels. Notre parseur établit une nouvelle performance de pointe (SOTA) pour la prédiction de la structure et de la nuclearité sur deux jeux de données clés RST, à savoir RST-DT et Instr-DT. Nous montrons également que le préentraînement de notre parseur sur le récent corpus de discours à grande échelle « d’étalon d’argent » (silver-standard), MEGA-DT, permet d’obtenir des gains de performance encore plus importants, suggérant une nouvelle direction de recherche prometteuse dans le domaine de l’analyse discursive.