17 天前

临床-Longformer 与 临床-BigBird:用于长临床序列的Transformer模型

Yikuan Li, Ramsey M. Wehbe, Faraz S. Ahmad, Hanyin Wang, Yuan Luo
临床-Longformer 与 临床-BigBird:用于长临床序列的Transformer模型
摘要

基于Transformer的模型(如BERT)在多种自然语言处理任务中显著提升了性能。在临床领域,经过临床知识增强的模型——ClinicalBERT——在临床命名实体识别与自然语言推理等任务中也取得了当前最优的结果。然而,这类Transformer模型的核心局限之一在于其全连接自注意力机制导致的高内存消耗。为克服这一问题,研究者提出了长序列Transformer模型(如Longformer和BigBird),通过引入稀疏注意力机制,将内存使用量从二次方级降低至与序列长度呈线性关系。这些模型将最大输入序列长度从512扩展至4096,显著增强了对长距离依赖关系的建模能力,并在多项任务中取得了优异表现。受此类长序列Transformer模型成功的启发,我们提出了两个领域增强型语言模型——Clinical-Longformer与Clinical-BigBird,二者均基于大规模临床语料库进行预训练。我们在10项基准任务(包括命名实体识别、问答系统和文档分类)上对这两个预训练模型进行了评估。实验结果表明,Clinical-Longformer与Clinical-BigBird在所有下游任务中均显著且一致地优于ClinicalBERT及其他短序列Transformer模型。相关源代码已公开,可访问:[https://github.com/luoyuanlab/Clinical-Longformer];预训练模型亦可通过Hugging Face平台免费下载:[https://huggingface.co/yikuan8/Clinical-Longformer]。