
摘要
带有注意力机制的序列到序列模型在多种自然语言处理任务中取得了成功,但在处理长源序列(如文档摘要)等任务时,其运行速度难以有效扩展。为此,我们提出一种新颖的粗粒度到细粒度注意力模型,该模型采用分层方式读取文档:首先使用粗粒度注意力机制选择文本的高层级片段,再通过细粒度注意力机制对选定片段中的具体词语进行精细读取。与标准注意力模型的计算复杂度随源序列长度呈线性增长不同,我们的方法其计算复杂度主要取决于高层级片段的数量,因而能够有效处理更长的序列。实验结果表明,尽管当前的粗粒度到细粒度注意力模型在性能上仍略逊于最先进的基线方法,但其在生成过程中表现出期望的稀疏注意力行为,即仅关注文档的特定子集,从而在保持效率的同时实现了合理的注意力分布。