11 天前

基于自顶向下与自底向上推理的长文档摘要

Bo Pang, Erik Nijkamp, Wojciech Kryściński, Silvio Savarese, Yingbo Zhou, Caiming Xiong

摘要

文本摘要的目标是压缩长篇文档的同时保留关键信息。总结模型成功的关键在于对源文档中词或标记的潜在表示进行准确推断。目前大多数模型采用纯自底向上的Transformer编码器来推断这些潜在表示，但此类方法存在局限性。此外，基于自注意力机制的推断模型在序列长度增加时面临二次方复杂度的挑战。为此，本文提出一种原理性推断框架，旨在从两个方面提升摘要模型的性能：一是建模文档的层次化潜在结构，二是实现更高效的双向信息传播。本框架假设文档具有分层的潜在结构：高层级在较粗的时间尺度上捕捉长距离依赖关系，而底层的词元层级则保留细粒度信息。关键在于，这种层次结构使得词元表示能够以自底向上和自顶向下两种方式进行更新。在自底向上的前向传播中，通过局部自注意力机制高效推断词元表示，充分利用其计算效率；随后，通过自顶向下的修正机制，使词元能够捕获全局长程依赖关系。我们在多种类型的摘要数据集上验证了该框架的有效性，涵盖叙事性文本、对话文本、科学文献以及新闻报道。实验结果表明：（1）在短文档摘要任务中，我们的模型在保持竞争力甚至更优性能的同时，显著提升了内存与计算效率，优于完整自注意力机制的Transformer模型；（2）在多种长文档摘要基准测试中，性能达到当前最优水平，优于近期提出的各类高效Transformer模型。此外，我们进一步展示了该模型可对整本图书进行摘要生成，在仅使用0.27%的参数量（4.64亿 vs. 1750亿）和远少于训练数据的前提下，仍能实现与近期基于GPT-3的模型相媲美的性能。这些结果充分证明了所提出框架的广泛适用性及其在效率与性能上的显著优势。