
摘要
句子压缩是指通过删除冗余词汇将长句压缩为短句的任务。在基于序列到序列(Seq2Seq)的模型中,解码器单向决定保留或删除词汇,因此通常无法显式地捕捉已解码词汇与未来时间步将要解码的未见词汇之间的关系。为了避免生成不合语法的句子,解码器有时会在压缩过程中丢弃重要词汇。为了解决这一问题,我们提出了一种新颖的Seq2Seq模型——语法前瞻注意力网络(SLAHAN),该模型能够在解码过程中显式跟踪依赖父词和子词,并捕捉未来将要解码的重要词汇,从而生成信息丰富的摘要。在Google句子压缩数据集上的自动评估结果显示,SLAHAN分别取得了最佳的保留词F1值、ROUGE-1、ROUGE-2和ROUGE-L分数,分别为85.5、79.3、71.3和79.1。此外,SLAHAN还提高了对较长句子的摘要性能。进一步的人工评估表明,SLAHAN在提高信息量的同时并未牺牲可读性。