17 天前
MediSwift:高效稀疏预训练生物医学语言模型
Vithursan Thangarasa, Mahmoud Salem, Shreyas Saxena, Kevin Leong, Joel Hestness, Sean Lie

摘要
大型语言模型(LLMs)通常在涵盖多个领域的通用数据上进行训练,但近期涌现出大量面向特定领域的专用语言模型,其在特定任务(如生物医学领域)中的表现已展现出超越通用模型的潜力。尽管领域特定的预训练能够提升训练效率并生成更小的模型,但这些LLM的训练仍面临高昂的计算成本,给资源预算带来挑战。为此,我们提出MediSwift——一套基于生物医学领域文本数据的稀疏预训练方法,构建了一系列生物医学专用语言模型。通过在预训练阶段引入高达75%的权重稀疏性,MediSwift实现了训练过程中浮点运算量(FLOPs)2至2.5倍的降低。值得注意的是,所有稀疏预训练均在Cerebras CS-2系统上完成,该系统专为利用非结构化权重稀疏性实现加速而设计,从而显著提升了MediSwift模型的训练效率。在后续的密集微调与策略性软提示(soft prompting)阶段,MediSwift模型在生物医学任务上的表现超越了现有参数规模达70亿的各类LLM,尤其在PubMedQA等任务上树立了新的效率-精度平衡基准。结果表明,结合稀疏预训练、密集微调与软提示策略,是一种在特定领域构建高性能且计算高效语言模型的有效方法。