HyperAI超神经
5 days ago

MedGemma 技术报告

Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil
MedGemma 技术报告
摘要

人工智能(AI)在医疗健康应用中具有巨大的潜力,但由于医疗数据的多样性、任务的复杂性以及保护隐私的需求,其训练和部署面临着诸多挑战。为了加速医疗健康AI应用的发展,基础模型在医学任务上表现出色且需要较少的任务特定调优数据显得尤为重要。我们介绍了MedGemma,这是一组基于Gemma 3 4B和27B的医学视觉-语言基础模型。MedGemma在图像和文本上的医学理解和推理方面展示了先进的能力,显著超过了同规模生成模型的性能,并接近了任务特定模型的表现,同时保持了Gemma 3基础模型的一般能力。对于分布外任务,MedGemma在医学多模态问答方面取得了2.6%-10%的改进,在胸部X光片发现分类方面取得了15.5%-18.1%的改进,在代理评估方面取得了10.8%的改进,相比基础模型均有明显提升。进一步微调MedGemma可以提高子领域的性能,将电子健康记录信息检索中的错误减少50%,并在气胸分类和组织病理学切片分类方面达到与现有专门化的最先进方法相当的性能。此外,我们还介绍了MedSigLIP,这是一种从SigLIP派生而来的医学调优视觉编码器。MedSigLIP为MedGemma提供了强大的视觉理解能力,并作为编码器在性能上达到了与专门化医学图像编码器相当或更好的水平。综上所述,MedGemma系列提供了一个坚实的医学图像和文本能力基础,有望大幅加速医学研究及下游应用的开发。包括教程和模型权重在内的MedGemma系列资源可在此https URL获取。