HyperAIHyperAI
il y a 15 jours

HowSumm : Un jeu de données de résumé de documents multiples issu d'articles WikiHow

Odellia Boni, Guy Feigenblat, Guy Lev, Michal Shmueli-Scheuer, Benjamin Sznajder, David Konopnicki
HowSumm : Un jeu de données de résumé de documents multiples issu d'articles WikiHow
Résumé

Nous présentons HowSumm, un nouveau jeu de données à grande échelle dédié à la tâche de synthèse multi-documents orientée requête (qMDS), visant à générer des instructions exploitables à partir d’un ensemble de sources. Ce cas d’usage diffère des scénarios couverts par les jeux de données existants de synthèse multi-documents (MDS) et s’applique à des contextes éducatifs comme industriels. Nous avons utilisé des méthodes automatiques, en exploitant des statistiques issues de jeux de données humainement construits pour la qMDS, afin de construire HowSumm à partir d’articles du site wikiHow et des sources qu’ils citent. Nous décrivons la création de ce jeu de données et discutons des caractéristiques uniques qui le distinguent des autres corpus de synthèse. Les évaluations automatiques et humaines menées sur des modèles de synthèse extractive et abstraite sur ce jeu de données révèlent qu’il reste un potentiel d’amélioration significatif.