LCSTS : Un grand ensemble de données pour la synthèse de textes courts en chinois

La synthèse automatique de texte est largement considérée comme un problème extrêmement difficile, en partie en raison du manque de grands ensembles de données pour la synthèse de texte. En raison des défis majeurs liés à la construction de résumés à grande échelle pour des textes complets, cet article présente un grand corpus de données de synthèse de courts textes chinois construit à partir du site de microblogging chinois Sina Weibo, qui est rendu public sur {http://icrc.hitsz.edu.cn/Article/show/139.html}. Ce corpus comprend plus de 2 millions de vrais courts textes chinois, chacun accompagné d'un résumé court fourni par l'auteur du texte. Nous avons également manuellement annoté la pertinence de 10 666 résumés courts avec leurs textes courts correspondants. À partir de ce corpus, nous introduisons un réseau neuronal récurrent pour la génération de résumés et obtenons des résultats prometteurs, ce qui non seulement démontre l'utilité du corpus proposé pour la recherche en synthèse de courts textes, mais fournit également une base de référence pour des recherches ultérieures sur ce sujet.