WikiHow : Un grand ensemble de données pour la synthèse de texte

Les modèles sequence-to-sequence ont récemment obtenu des performances de pointe dans le domaine de la synthèse automatique. Cependant, il n'existe pas beaucoup de grands ensembles de données de haute qualité, et ceux qui sont disponibles sont principalement constitués d'articles de presse avec un style d'écriture spécifique. De plus, les systèmes abstraits à la manière humaine, impliquant une description du contenu à un niveau plus profond, nécessitent des données avec des niveaux d'abstraction plus élevés. Dans cet article, nous présentons WikiHow, un ensemble de données composé de plus de 230 000 paires d'articles et de résumés extraits et construits à partir d'une base de connaissances en ligne écrite par différents auteurs humains. Les articles couvrent une large gamme de sujets et représentent donc des styles très diversifiés. Nous évaluons les performances des méthodes existantes sur WikiHow pour mettre en lumière ses défis et établir certaines lignes directrices afin d'améliorer davantage ces performances.