MedSAM3: Einblick in Segment Anything mit medizinischen Konzepten
Anglin Liu Rundong Xue Xu R. Cao Yifan Shen Yi Lu Xiang Li Qianqian Chen Jintai Chen

Abstract
Die Segmentierung medizinischer Bilder ist grundlegend für biomedizinische Entdeckungen. Bestehende Methoden weisen eine geringe Verallgemeinerungsfähigkeit auf und erfordern für neue klinische Anwendungen umfangreiche, zeitaufwändige manuelle Annotationen. Hier stellen wir MedSAM-3 vor, ein textpromptbares Segmentierungsmodell für medizinische Bilder und Videos. Durch das Feintunen der Segment-Anything-Model-(SAM)-3-Architektur auf medizinischen Bildern mit semantischen Konzeptbezeichnungen ermöglicht unser MedSAM-3 die medizinische Prompt-basierte Konzeptsegmentierung (Promptable Concept Segmentation, PCS), wodurch anatomische Strukturen präzise über offene-Vokabular-Textbeschreibungen – statt ausschließlich geometrische Prompts – identifiziert werden können. Weiterhin führen wir den MedSAM-3-Agenten ein, einen Rahmenwerk, der Multimodale Große Sprachmodelle (Multimodal Large Language Models, MLLMs) integriert, um komplexe Schlussfolgerungen und iterative Verfeinerungen in einem Agent-in-the-Loop-Workflow durchzuführen. Umfassende Experimente an verschiedenen medizinischen Bildgebungsmodalitäten – einschließlich Röntgen, MRT, Ultraschall, CT und Videos – zeigen, dass unser Ansatz bestehende Spezial- und Grundlagenmodelle erheblich übertrifft. Wir werden unseren Code und das Modell unter https://github.com/Joey-S-Liu/MedSAM3 veröffentlichen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.