2 个月前

ChuLo: 面向块级的关键信息表示方法用于长文档处理

Li, Yan ; Han, Soyeon Caren ; Dai, Yue ; Cao, Feiqi
ChuLo: 面向块级的关键信息表示方法用于长文档处理
摘要

基于Transformer的模型在各种自然语言处理(NLP)任务中取得了显著的成功,但其处理长文档的能力受到计算限制的制约。传统的解决方法,如截断输入、稀疏自注意力机制和分块,虽然试图缓解这些问题,但往往导致信息丢失并削弱模型捕捉长距离依赖关系的能力。本文介绍了一种新的长文档理解分块表示方法——ChuLo,该方法通过无监督关键短语提取对输入标记进行分组,强调语义重要的关键短语分块,以保留核心文档内容的同时减少输入长度。这种方法最大限度地减少了信息损失,并提高了基于Transformer模型的效率。在长文档理解中,特别是在标记分类任务中,保留所有标记对于确保细粒度注释不丢失至关重要,因为这些注释依赖于整个序列的上下文。我们对多个长文档分类任务和长文档标记分类任务进行了评估,并通过全面的定性和定量分析证明了该方法的有效性。我们的实现代码已开源发布在 https://github.com/adlnlp/Chulo。