Anglin Liu Rundong Xue Xu R. Cao Yifan Shen Yi Lu Xiang Li Qianqian Chen Jintai Chen

الملخص
يُعد التجزئة الصورية الطبية أساسية للاكتشافات في المجال الحيوي. تفتقر الطرق الحالية إلى القدرة على التعميم وتحتاج إلى تسمية يدوية واسعة وطويلة الأمد لتطبيقات سريرية جديدة. في هذا العمل، نقترح MedSAM-3، نموذجًا للتجزئة الطبية قابلاً للتحفيز النصي، مخصصًا لتجزئة الصور والفيديوهات الطبية. من خلال تدريب نموذج Segment Anything Model (SAM) 3 بشكل دقيق على صور طبية مزودة بعلامات مفاهيمية معنوية، يُمكّننا MedSAM-3 من تنفيذ تجزئة المفاهيم القابلة للتحفيز النصي (PCS) في المجال الطبي، مما يسمح بالتحديد الدقيق للهياكل التشريحية عبر وصفات نصية مفتوحة المفهوم، بدلًا من الاعتماد فقط على المُحفزات الهندسية. كما نقدّم بشكل إضافي "وكيل MedSAM-3"، وهو إطار عمل يدمج نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) لإجراء استدلال معقد وتحسين تدريجي ضمن عملية عمل تُشغّل فيها الوكيل في حلقة تغذية راجعة. تُظهر التجارب الشاملة في مختلف وسائط التصوير الطبي، بما في ذلك الأشعة السينية، والرنين المغناطيسي، والتصوير بالموجات فوق الصوتية، والأشعة المقطعية، والفيديوهات، أن نهجنا يتفوق بشكل ملحوظ على النماذج المتخصصة والأساسية الحالية.我们将将在 https://github.com/Joey-S-Liu/MedSAM3 公开我们的代码和模型。
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.