
摘要
神经自然语言生成(Neural Natural Language Generation, NNLG)系统以其病态输出而闻名,即生成与输入规范无关的文本。本文研究了语义噪声对采用不同语义控制机制的前沿NNLG模型的影响。研究发现,使用清洗后的数据可使语义正确性提升高达97%,同时保持生成文本的流畅性。此外,我们发现最常见的错误是信息遗漏,而非幻觉(hallucination)。
神经自然语言生成(Neural Natural Language Generation, NNLG)系统以其病态输出而闻名,即生成与输入规范无关的文本。本文研究了语义噪声对采用不同语义控制机制的前沿NNLG模型的影响。研究发现,使用清洗后的数据可使语义正确性提升高达97%,同时保持生成文本的流畅性。此外,我们发现最常见的错误是信息遗漏,而非幻觉(hallucination)。