视图引导的视觉-语言AI实现超声心动图全面智能评估
研究人员开发出一种名为EchoPrime的多视角、视图感知的视频型视觉语言基础模型,用于全面的心脏超声检查评估。该模型基于超过1200万对超声视频与报告数据进行训练,能够整合一次完整超声心动图检查中所有标准视图的信息,实现对心脏结构与功能的全局性临床解读。 传统人工智能在超声心动图中的应用多为单视图、单任务系统,难以融合多视角间的互补信息,限制了其性能和应用范围。而EchoPrime通过对比学习构建统一的嵌入模型,不仅涵盖常见疾病,也包含罕见病的表征,有效提升了模型的泛化能力。模型采用视图分类与视图感知解剖注意力机制,精准映射不同超声视图与心脏解剖结构之间的关系,并结合检索增强解释技术,整合全部视频信息,实现整体性分析。 在来自五个国际独立医疗系统的数据集上,EchoPrime在23项涵盖心脏形态与功能的多样化评估任务中均达到当前最优水平,显著优于以往专用模型和基础模型。经过严格的临床验证,EchoPrime可辅助医生完成全面超声心动图的自动化初步评估,提升诊断效率与一致性。 该研究由Cedars-Sinai医疗中心、加州大学洛杉矶分校、斯坦福大学、加州大学旧金山分校、高雄长庚纪念医院及凯撒医疗集团等机构的多学科团队合作完成。主要作者包括Milos Vukadinovic、I-Min Chiu、Xiu Tang、Neal Yuan、Tien-Yu Chen、Paul Cheng、Debiao Li、Susan Cheng、Bryan He与David Ouyang。该成果发表于《自然》(Nature)期刊,目前为未编辑版本,尚待正式出版。
