Défis de la génération de documents à partir de données

Les modèles neuronaux récents ont montré des progrès significatifs dans la génération de textes descriptifs courts conditionnés à un petit nombre d'enregistrements de base de données. Dans ce travail, nous proposons une tâche légèrement plus complexe de génération de données en texte et examinons l'efficacité des approches actuelles sur cette tâche. Plus précisément, nous introduisons un nouveau corpus d'enregistrements de données associés à des documents descriptifs à grande échelle, proposons une série de méthodes d'évaluation extractives pour analyser les performances, et obtenons des résultats de référence en utilisant les méthodes actuelles de génération neuronale. Les expériences montrent que ces modèles produisent un texte fluide, mais ne parviennent pas à convaincre en approximant les documents générés par les humains. De plus, même les baselines basées sur des modèles préformatifs surpassent les performances de ces modèles neuronaux selon certains critères, bien que des extensions basées sur la copie et la reconstruction entraînent des améliorations notables.