7 个月前

摘要

近年来，许多不同的方法都集中在使用深度循环神经网络进行自然语言生成。目前最广泛使用的序列到序列神经方法是基于词汇的：因此，它们需要一个预处理步骤，称为去词汇化（反之为再词汇化），以处理不常见或未知的词汇。然而，这些处理形式导致了依赖于所使用词汇表且不完全神经化的模型。在本研究中，我们提出了一种端到端的序列到序列模型，该模型具有注意力机制，能够在字符级别上读取和生成文本，从而不再需要去词汇化、分词甚至小写转换。此外，由于字符构成了每段文本的共同“构建块”，这种方法还允许对文本生成采取更为通用的策略，并能够利用迁移学习进行训练。这些能力主要归功于两个重要特性：(i) 能够在标准生成机制和复制机制之间切换，这使得可以直接复制输入事实以生成输出；(ii) 使用一种创新的训练管道，进一步提高了生成文本的质量。我们还引入了一个名为E2E+的新数据集，旨在突出字符级模型的复制能力。E2E+是对著名的E2E数据集（用于E2E挑战赛）的一个修改版本。我们根据五种广泛接受的评估指标（包括常用的BLEU指标）测试了我们的模型，结果显示其性能与字符级和词汇级方法相比具有竞争力。

源 PDF