2 个月前

基于结构化数据的神经文本生成及其在传记领域的应用

Remi Lebret; David Grangier; Michael Auli
基于结构化数据的神经文本生成及其在传记领域的应用
摘要

本文介绍了一种用于从概念生成文本的神经模型,该模型可扩展至大型、丰富的领域。我们使用了一个来自维基百科的新数据集进行实验,该数据集包含超过70万条样本,比现有资源大一个数量级。此外,该数据集在词汇多样性方面也远超其他资源,拥有40万个词汇量,而Weathergov或Robocup的数据集仅包含几百个词汇。我们的模型基于近期关于条件神经语言模型在文本生成中的研究工作。为了应对庞大的词汇量,我们将这些模型扩展为结合固定词汇表与复制操作(copy actions),后者可以将输入数据库中特定样本的词语传输到生成的输出句子中。实验结果表明,我们的神经模型在这一任务上的表现显著优于传统的Kneser-Ney语言模型,BLEU分数提高了近15分。

基于结构化数据的神经文本生成及其在传记领域的应用 | 最新论文 | HyperAI超神经