Analyse de discours haut-basée par étiquetage de séquences

Nous introduisons une approche descendante pour l’analyse du discours, conceptuellement plus simple que ses prédécesseurs (Kobayashi et al., 2020 ; Zhang et al., 2020). En reformulant la tâche comme un problème d’étiquetage de séquence, dont l’objectif est de segmenter itérativement un document en unités discursives individuelles, nous parvenons à éliminer le décodeur et à réduire l’espace de recherche des points de découpage. Nous explorons à la fois des modèles récurrents classiques et des modèles modernes pré-entraînés basés sur les transformateurs pour cette tâche, tout en introduisant par ailleurs une nouvelle oracule dynamique adaptée à l’analyse descendante. Sur la métrique Full, notre modèle LSTM proposé établit un nouveau record pour la parsing RST.