11 天前

TNT-NLG,系统1:利用统计NLG大规模扩充众包数据以支持神经生成

{Marilyn A. Walker, Stephanie Lukin, Shubhangi Tandon, Shereen Oraby, Lena Reed}
摘要

自Sutskever等人(2014)成功将序列到序列学习(sequence-to-sequence learning)应用于神经机器翻译系统以来,该方法在其他问题领域中的语言生成应用潜力引起了广泛关注。在自然语言生成(Natural Language Generation, NLG)领域,端到端(End-to-End, E2E)神经模型因其能够一步学习并生成自然语言句子表示而受到极大关注。本文介绍了TNT-NLG系统1,这是我们首次参加E2E NLG挑战赛的系统提交,旨在通过大幅扩充训练数据集,从餐厅领域的语义表示(Meaning Representations, MRs)生成自然语言(Natural Language, NL)描述。本系统基于Dusek等人(2016a)开源的基线模型以及上下文感知神经语言生成器,构建了两种模型。我们以E2E生成挑战赛提供的MR与NL配对数据为基础,利用PERSONAGE(Mairesse和Walker,2010)——一种能够从语义表示生成多样化自然语言实现的统计生成器——对训练数据集进行大规模扩展,并将扩展后的数据作为上下文输入融入模型中。本文还报告了基于自动化评估指标与人工评估指标的实验结果,并探讨了未来研究的方向。

TNT-NLG,系统1:利用统计NLG大规模扩充众包数据以支持神经生成 | 最新论文 | HyperAI超神经