BioMedGPT:面向生物医学的开源多模态生成预训练Transformer

基础模型(Foundation Models, FMs)在众多领域中的多种下游任务中展现出卓越的性能。然而,通用型基础模型在面对特定领域问题时,往往因难以获取某一领域专属的私有训练数据而面临挑战。在生物医学领域,存在多种生物模态,如分子、蛋白质和细胞等,这些模态均以“生命语言”进行编码,与人类自然语言之间存在显著的模态差异。本文提出 BioMedGPT,这是一种面向生物医学领域的开源多模态生成预训练变换器(Generative Pre-trained Transformer, GPT),旨在弥合“生命语言”与人类自然语言之间的鸿沟。BioMedGPT 首次实现了用户可通过自由文本与多种生物模态进行“交流”,极大提升了交互的便捷性。BioMedGPT 通过一个大规模生成式语言模型——BioMedGPT-LM,实现不同生物模态与自然语言之间的对齐。我们发布了 BioMedGPT-10B 模型,该模型通过编码与对齐机制,统一了分子、蛋白质与自然语言的特征空间。经过微调后,BioMedGPT-10B 在生物医学问答(Biomedical QA)任务上的表现优于或媲美人类专家,并显著超越了更大规模的通用基础模型。此外,该模型在分子问答(Molecule QA)和蛋白质问答(Protein QA)任务中也展现出优异的性能,有望显著加速新药研发与治疗靶点的发现进程。同时,BioMedGPT-LM-7B 是首个基于 Llama2 架构的生物医学领域大型生成式语言模型,具备良好的商业化潜力。为推动社区研究发展,我们已将 BioMedGPT-10B 与 BioMedGPT-LM-7B 完全开源。此外,我们还精心构建并发布了用于多模态对齐的高质量数据集——PubChemQA 与 UniProtQA。所有模型、代码及数据集均已公开,可访问 https://github.com/PharMolix/OpenBioMed。