Command Palette
Search for a command to run...
MedSAM3: Einblick in Segment Anything mit medizinischen Konzepten
MedSAM3: Einblick in Segment Anything mit medizinischen Konzepten
Anglin Liu Rundong Xue Xu R. Cao Yifan Shen Yi Lu Xiang Li Qianqian Chen Jintai Chen
Zusammenfassung
Die Segmentierung medizinischer Bilder ist grundlegend für biomedizinische Entdeckungen. Bestehende Methoden weisen eine geringe Verallgemeinerungsfähigkeit auf und erfordern für neue klinische Anwendungen umfangreiche, zeitaufwändige manuelle Annotationen. Hier stellen wir MedSAM-3 vor, ein textpromptbares Segmentierungsmodell für medizinische Bilder und Videos. Durch das Feintunen der Segment-Anything-Model-(SAM)-3-Architektur auf medizinischen Bildern mit semantischen Konzeptbezeichnungen ermöglicht unser MedSAM-3 die medizinische Prompt-basierte Konzeptsegmentierung (Promptable Concept Segmentation, PCS), wodurch anatomische Strukturen präzise über offene-Vokabular-Textbeschreibungen – statt ausschließlich geometrische Prompts – identifiziert werden können. Weiterhin führen wir den MedSAM-3-Agenten ein, einen Rahmenwerk, der Multimodale Große Sprachmodelle (Multimodal Large Language Models, MLLMs) integriert, um komplexe Schlussfolgerungen und iterative Verfeinerungen in einem Agent-in-the-Loop-Workflow durchzuführen. Umfassende Experimente an verschiedenen medizinischen Bildgebungsmodalitäten – einschließlich Röntgen, MRT, Ultraschall, CT und Videos – zeigen, dass unser Ansatz bestehende Spezial- und Grundlagenmodelle erheblich übertrifft. Wir werden unseren Code und das Modell unter https://github.com/Joey-S-Liu/MedSAM3 veröffentlichen.