HyperAI超神经
Back to Headlines

多国学者联合述评:生成式AI如何重塑医学大模型,机遇与挑战并存

3 天前

近日,上海交通大学计算机学院盛斌教授联合清华大学医学院黄天荫教授、英国伦敦大学学院(UCL)眼科研究所 Pearse Keane 教授、新加坡国立大学医学院覃宇宗教授等多国学者,在《Nature Biomedical Engineering》期刊上发表了一篇题为《合成数据助推医学基座模型发展》的深度综述文章。文章探讨了生成式人工智能(如生成对抗网络GAN、扩散模型等)在医学领域的应用,尤其是在突破数据瓶颈方面的重要影响。 生成式人工智能通过合成高质量、多样化的医学数据,不仅缓解了数据短缺的问题,还推动了多模态融合和因果推理的发展。这在实际应用中具体表现为提升诊断精度、加速个性化诊疗及优化医疗资源分配等方面。尤其在中国,医疗数据面临三大核心挑战:严格的隐私保护法规使得数据获取合规困难;高昂的标注成本加重了数据准备的负担,如单例医学影像标注需数小时专业人力;数据孤岛现象严重,跨机构数据共享率不足30%。这些挑战限制了AI模型的训练和效果,但生成式AI的合成数据技术能够将单个中心的小量病例扩展至百万级训练集,显著增强了模型的训练资源。 复旦大学颜波教授团队此前在《Nature Biomedical Engineering》期刊上发表的研究展示了生成式AI数据在构建眼科基座模型方面的成功案例。盛斌教授等学者在述评中对该成果给予高度肯定,但也指出了几个值得注意的问题: 隐私风险:虽然合成数据降低了直接使用真实世界医疗数据带来的隐私泄露风险,但并不能完全消除潜在的安全隐患。 黑箱模型:基础模型的黑箱特性使得模型在合成数据上的性能下降或失败原因不透明,增加了开发和应用的不确定性。 数据偏差:有限的真实数据可能导致合成数据中存在固有的偏差,特别是在罕见病和少数群体的诊疗中,模型的公平性和通用性可能受到影响。 性能未知:目前尚不清楚构建一个强大的基础模型需要多少真实数据,完全基于合成数据训练的模型性能仍然是未知数。 此外,建立医疗AI中真实和合成数据的可追溯性和来源指南及标准刻不容缓。合成数据虽有一定的潜力,但其局限性明显,难以完全替代真实世界数据所提供的丰富信息和可靠性。因此,未来的发展方向应是将两者有机结合,以真实数据为基础,合成数据为补充,共同推动医学AI模型的演进和优化。 业内专家认为,生成式AI在医学领域的应用不仅是技术上的创新,更是医疗服务模式的重大变革。这一技术有望打破国际技术壁垒,助力中国医学AI实现科技自立并创新发展。当前,全球范围内医学AI的竞争愈发激烈,生成式AI为中国在该领域提供了宝贵的发展机遇,有助于在底层算法等关键领域实现自主可控。未来,通过全面的制度建设和技术创新,生成式AI将从实验室走向临床,为实现“四个面向”的战略目标贡献力量,提高国民整体医疗水平,使更多患者受益。

Related Links