Command Palette
Search for a command to run...
Anglin Liu Rundong Xue Xu R. Cao Yifan Shen Yi Lu Xiang Li Qianqian Chen Jintai Chen

要約
医用画像セグメンテーションは、生物医科学的発見の基盤となる。従来の手法は汎用性に欠け、新たな臨床応用に向けた広範で時間のかかる手動アノテーションを必要としている。本研究では、医用画像および動画のセグメンテーションを対象としたテキストプロンプト対応型の医療用セグメンテーションモデル「MedSAM-3」を提案する。Segment Anything Model (SAM) 3のアーキテクチャを、意味的コンセプトラベルと対応する医用画像データ上で微調整することで、MedSAM-3は「プロンプト可能な概念セグメンテーション(Promptable Concept Segmentation, PCS)」を実現し、幾何学的プロンプトに依存するのではなく、オープンボリュームのテキスト記述によって解剖学的構造を高精度にターゲット化できる。さらに、マルチモーダル大規模言語モデル(Multimodal Large Language Models, MLLMs)を統合した「MedSAM-3 Agent」を導入し、エージェント・イン・ザ・ループ(agent-in-the-loop)のワークフローにおいて複雑な推論と反復的精緻化を実現した。X線、MRI、超音波、CTおよび動画を含む多様な医用画像モダリティにおける包括的な実験により、本手法が既存の専門モデルおよび基礎モデルを著しく上回ることを示した。コードおよびモデルは、https://github.com/Joey-S-Liu/MedSAM3 にて公開予定である。