16 天前
数据到文本生成中的词级别幻觉控制
Clément Rebuffel, Marco Roberti, Laure Soulier, Geoffrey Scoutheeten, Rossella Cancelliere, Patrick Gallinari

摘要
数据到文本生成(Data-to-Text Generation, DTG)是自然语言生成领域的一个子方向,旨在将结构化数据转化为自然语言描述。近年来,基于神经网络的生成模型推动了该领域的快速发展。这类模型在无需人工设计复杂流水线的前提下,展现出出色的句法生成能力;然而,其生成文本的质量高度依赖于训练数据的质量。在现实场景中,结构化数据与对应文本之间的对齐往往不完美,导致训练数据中存在不一致或噪声。因此,当前最先进的神经模型常常在输出中引入错误陈述——通常被称为“幻觉”(hallucinations)。如何有效控制这一现象,已成为DTG领域当前的核心挑战,也是本文所聚焦的问题。以往的研究主要从实例层面入手,针对每个表格-文本对计算对齐得分以缓解幻觉问题。相比之下,本文提出一种更细粒度的解决方案,主张将幻觉的控制机制落实到词元(word-level)层面。具体而言,我们提出一种多分支解码器(Multi-Branch Decoder),能够利用词级标签来学习每个训练实例中与生成相关的关键信息。这些词级标签通过一种简单而高效的评分机制获得,该机制基于共现分析(co-occurrence analysis)与依存句法分析(dependency parsing)。在标准的WikiBio基准数据集上,通过自动评估指标与人工判断进行的大量实验表明,我们所构建的对齐标签具有较高准确性,且所提出的多分支解码器在实际应用中表现出显著有效性。所提模型不仅能够有效减少并控制幻觉现象,同时保持生成文本的流畅性与连贯性。此外,在对ToTTo数据集进行降噪处理后的退化版本上的进一步实验也证明,该模型在噪声极高的实际场景中仍能稳定运行,具备良好的鲁棒性与实用性。