Command Palette
Search for a command to run...
Anglin Liu Rundong Xue Xu R. Cao Yifan Shen Yi Lu Xiang Li Qianqian Chen Jintai Chen

摘要
医学图像分割是生物医学发现的基础。现有方法普遍存在泛化能力不足的问题,且在应用于新临床场景时,需耗费大量时间进行繁琐的手动标注。为此,我们提出 MedSAM-3——一种可接受文本提示的医学图像与视频分割模型。通过在配以语义概念标签的医学图像数据上对 Segment Anything Model (SAM) 3 架构进行微调,MedSAM-3 实现了医学可提示概念分割(Promptable Concept Segmentation, PCS),使用户能够通过开放词汇的文本描述精准定位解剖结构,而不仅依赖于几何提示。此外,我们进一步引入 MedSAM-3 Agent 框架,该框架融合多模态大语言模型(Multimodal Large Language Models, MLLMs),在“人机协同”工作流中实现复杂推理与迭代优化。在多种医学成像模态(包括X光、MRI、超声、CT及视频)上的全面实验表明,本方法显著优于现有专业模型与基础模型。代码与模型将开源,发布于 https://github.com/Joey-S-Liu/MedSAM3。