Un nouveau parseur de discours basé sur la classification par machines à vecteurs de support

Cet article présente un nouvel algorithme permettant d’analyser le discours dans le cadre de la Théorie de la Structure Rhetorique (RST). Notre méthode s’appuie sur les avancées récentes en apprentissage automatique statistique (notamment les capacités multivariées des Machines à Vecteurs de Support) ainsi que sur un espace de caractéristiques riche. La RST fournit un cadre formel pour l’organisation hiérarchique du texte, offrant des applications solides en analyse du discours et en génération de texte. Nous démontrons une annotation automatisée d’un texte selon des relations hiérarchiquement organisées selon la RST, avec des résultats comparables à ceux obtenus par des annotateurs humains spécialement formés. En exploitant un ensemble riche de caractéristiques superficielles — lexicales, syntaxiques et structurales — extraites du texte d’entrée, notre parseur atteint, en temps linéaire, un score F d’accord humain équivalent à 73,9 % de celui des annotateurs professionnels. Ce parseur est de 5 à 12 % plus précis que les parseurs actuels d’état de l’art.