
摘要
近期在文本自编码器领域的进展显著提升了潜在空间的质量,这使得模型能够从聚合的潜在向量中生成语法正确且连贯的文本。作为这一特性的成功应用之一,无监督观点摘要模型通过解码输入的聚合潜在向量来生成摘要。具体而言,它们通过简单的平均方法进行聚合。然而,关于向量聚合步骤如何影响生成质量的研究较少。在本研究中,我们重新审视了常用的简单平均方法,通过检查潜在空间和生成的摘要来探讨其影响。我们发现,由于聚合后的潜在向量中出现了意外的$L_2$范数收缩(我们称之为摘要向量退化),文本自编码器倾向于从简单平均的潜在向量中生成过于泛化的摘要。为了解决这一问题,我们开发了一个框架Coop,该框架利用输入输出词汇重叠来搜索用于潜在向量聚合的输入组合。实验结果表明,Coop成功缓解了摘要向量退化的问题,并在两个观点摘要基准测试中取得了新的最先进性能。代码可在\url{https://github.com/megagonlabs/coop}获取。