DMRST : Un Cadre Commun pour la Segmentation et l'Analyse Discursive de Type RST au Niveau du Document en Plusieurs Langues

L'analyse de la structure discursive du texte joue un rôle crucial dans la compréhension du flux d'information et de la structure argumentative en langage naturel, ce qui en fait une ressource précieuse pour les tâches ultérieures. Bien que les travaux précédents aient considérablement amélioré les performances de l'analyse discursive RST (Rhetorical Structure Theory), ils ne sont pas facilement applicables aux cas pratiques : (1) La segmentation des unités de discours élémentaires (EDU) n'est pas intégrée à la plupart des cadres existants pour le parsing arborescent, rendant ainsi difficile l'application de ces modèles à de nouvelles données. (2) La plupart des analyseurs ne peuvent être utilisés dans des scénarios multilingues, car ils ont été développés uniquement en anglais. (3) Les analyseurs formés sur des bases d'arbres mono-domaines ne généralisent pas bien sur des entrées hors domaine. Dans cette étude, nous proposons un cadre d'analyse discursive RST multilingue au niveau du document, qui effectue conjointement la segmentation EDU et le parsing arborescent discursif. De plus, nous présentons une stratégie d'augmentation par traduction croisée pour permettre au cadre de prendre en charge l'analyse multilingue et d'améliorer sa généralité inter-domaines. Les résultats expérimentaux montrent que notre modèle atteint des performances de pointe dans l'analyse discursive RST multilingue au niveau du document pour toutes les sous-tâches.