17 天前
紧凑型生物医学Transformer的有效性研究
Omid Rohanian, Mohammadmahdi Nouriborji, Samaneh Kouchaki, David A. Clifton

摘要
近年来,基于生物医学语料库预训练的语言模型(如BioBERT)在下游生物医学任务中展现出令人瞩目的性能。然而,许多现有的预训练模型由于嵌入维度、隐藏层维度和层数较多,往往资源消耗大且计算开销高。为应对这一挑战,自然语言处理(NLP)社区已提出多种模型压缩策略,包括剪枝(pruning)、量化(quantisation)以及知识蒸馏(knowledge distillation),从而实现了在保持性能的同时显著提升模型的运行速度、减小模型体积,使其在实际应用中更加高效便捷。受此启发,本文提出六种轻量级生物医学语言模型:BioDistilBERT、BioTinyBERT、BioMobileBERT、DistilBioBERT、TinyBioBERT 和 CompactBioBERT。这些模型通过两种方式获得:一是从生物医学领域教师模型(biomedical teacher model)进行知识蒸馏,二是基于PubMed数据集采用掩码语言建模(Masked Language Modeling, MLM)目标进行持续学习(continual learning)。我们在三个生物医学任务上对所有模型进行了评估,并与BioBERT-v1.1进行对比,旨在构建在性能上可与大型模型相媲美的高效轻量级模型。所有模型将公开发布于我们的Hugging Face主页:https://huggingface.co/nlpie,用于实验的代码也将同步开源,地址为:https://github.com/nlpie-research/Compact-Biomedical-Transformers。