2 个月前

ChuLo: 面向块级的关键信息表示方法用于长文档处理

Li, Yan ; Han, Soyeon Caren ; Dai, Yue ; Cao, Feiqi

摘要

基于Transformer的模型在各种自然语言处理（NLP）任务中取得了显著的成功，但其处理长文档的能力受到计算限制的制约。传统的解决方法，如截断输入、稀疏自注意力机制和分块，虽然试图缓解这些问题，但往往导致信息丢失并削弱模型捕捉长距离依赖关系的能力。本文介绍了一种新的长文档理解分块表示方法——ChuLo，该方法通过无监督关键短语提取对输入标记进行分组，强调语义重要的关键短语分块，以保留核心文档内容的同时减少输入长度。这种方法最大限度地减少了信息损失，并提高了基于Transformer模型的效率。在长文档理解中，特别是在标记分类任务中，保留所有标记对于确保细粒度注释不丢失至关重要，因为这些注释依赖于整个序列的上下文。我们对多个长文档分类任务和长文档标记分类任务进行了评估，并通过全面的定性和定量分析证明了该方法的有效性。我们的实现代码已开源发布在 https://github.com/adlnlp/Chulo。