تطبيق SAM 2 الأحدث متاح الآن! أصدر فريق جامعة أكسفورد برنامج Medical SAM 2، وهو تحديث لقائمة SOTA لتجزئة الصور الطبية

في أبريل 2023، أصدرت Meta نموذج Segment Anything (SAM)، مدعية أنها قادرة على "تجزئة كل شيء". لقد كان الأمر بمثابة قنبلة هزت مجال الرؤية الحاسوبية بأكمله، حتى أن الكثيرين اعتبروه بحثًا قلب مهام السيرة الذاتية التقليدية رأسًا على عقب.
بعد مرور أكثر من عام،أصدرت Meta تحديثًا مهمًا آخر - SAM 2، والذي يمكنه توفير تقسيم الكائنات القابلة للإيحاء في الوقت الفعلي للصور الثابتة ومحتوى الفيديو الديناميكي، ودمج وظائف تقسيم الصور والفيديو في نفس النظام.كما يمكنك أن تتخيل، فإن القوة القوية مكنت الصناعة من تسريع استكشاف تطبيقات SAM في مجالات مختلفة، وخاصة في مجال تقسيم الصور الطبية. وقد اعتبرته بالفعل العديد من المختبرات وفرق البحث الأكاديمية الخيار الوحيد لنماذج تقسيم الصور الطبية.
تتمثل عملية ما يسمى بتجزئة الصورة الطبية في تقسيم الأجزاء ذات المعاني الخاصة في الصور الطبية واستخراج الميزات ذات الصلة، وبالتالي توفير أساس موثوق للتشخيص السريري والبحث المرضي وما إلى ذلك.
في السنوات الأخيرة، مع التقدم المستمر لتكنولوجيا التعلم العميق، أصبحت التجزئة القائمة على نماذج الشبكة العصبية تدريجيًا الطريقة السائدة لتجزئة الصور الطبية، كما أدت طرق التجزئة الآلية إلى تحسين الكفاءة والدقة بشكل كبير. لكن،ونظرا لخصوصية مجال تقسيم الصور الطبية، لا تزال هناك بعض التحديات التي تحتاج إلى معالجة.
الأول هو تعميم النموذج.من الصعب تكييف النماذج المدربة على أهداف محددة (مثل الأعضاء أو الأنسجة) مع أهداف أخرى، لذلك غالبًا ما يكون من الضروري إعادة تطوير النماذج المقابلة لأهداف التجزئة المختلفة؛والثاني هو اختلاف البيانات.تم تصميم العديد من أطر التعلم العميق القياسية التي تم تطويرها لرؤية الكمبيوتر للصور ثنائية الأبعاد، ولكن في التصوير الطبي، تكون البيانات عادةً بتنسيق ثلاثي الأبعاد، مثل التصوير المقطعي المحوسب، والتصوير بالرنين المغناطيسي، والموجات فوق الصوتية. لا شك أن هذا الاختلاف يسبب مشاكل كبيرة لتدريب النموذج.
من أجل حل المشاكل المذكورة أعلاه،قام فريق جامعة أكسفورد بتطوير نموذج لتجزئة الصور الطبية يسمى Medical SAM 2 (MedSAM-2).تم تصميم النموذج على أساس إطار SAM 2 ويعامل الصور الطبية كمقاطع فيديو. إنه لا يعمل بشكل جيد في مهام تقسيم الصور الطبية ثلاثية الأبعاد فحسب، بل يفتح أيضًا إمكانية تقسيم جديدة بإشارة واحدة. كل ما يحتاجه المستخدم هو تقديم تلميح لكائن محدد جديد، ويمكن إكمال عملية تقسيم الكائنات المماثلة في الصور اللاحقة تلقائيًا بواسطة النموذج دون الحاجة إلى إدخال إضافي.
وقد تم نشر الأوراق والنتائج ذات الصلة على منصة الطباعة المسبقة arXiv تحت عنوان "Medical SAM 2: تقسيم الصور الطبية كفيديو عبر نموذج Segment Anything Model 2".
أبرز الأبحاث:
* كان الفريق رائدًا في تطوير نموذج تقسيم الصور الطبية MedSAM-2 استنادًا إلى SAM 2
* اعتمد الفريق مفهومًا جديدًا "الصور الطبية كمقاطع فيديو"، مما أدى إلى فتح "وظيفة التجزئة الموجهة الفردية"

عنوان الورقة:
https://arxiv.org/pdf/2408.00874
التنزيل المباشر لمجموعة بيانات تجزئة الفيديو SA-V:
عينة من مجموعة بيانات التجزئة الطبية Medical SAM 2:
يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s
مجموعة البيانات: تصميم التصنيف، التقييم الشامل
أجرى الفريق تجارب على خمس مجموعات بيانات مختلفة لتجزئة الصور الطبية باستخدام إشارات القناع المولدة تلقائيًا، والتي تم تقسيمها إلى فئتين:
تهدف الفئة الأولى إلى تقييم أداء التجزئة العامة،اختار الفريق مهمة تقسيم الأعضاء المتعددة في البطن واختار مجموعة بيانات BTCV، التي تحتوي على 12 بنية تشريحية.
تهدف الفئة الثانية إلى تقييم قدرة النموذج على التعميم عبر وسائل التصوير المختلفة.استخدم الباحثون مجموعة بيانات REFUGE2 لتجزئة صور القرص البصري والكأس البصرية؛ مجموعة بيانات BraTs 2021 لتقسيم أورام المخ في فحوصات التصوير بالرنين المغناطيسي؛ تم استخدام معيار TNMIX لتقسيم عقيدات الغدة الدرقية في صور الموجات فوق الصوتية، والتي تتكون من 4554 صورة من TNSCUI و 637 صورة من DDTI؛ وتم استخدام مجموعة بيانات ISIC 2019 لتقسيم الآفات الجلدية إلى سرطان الجلد أو الشامة.
بالإضافة إلى ذلك، قام الفريق بإعداد 10 مهام إضافية لتجزئة الصور ثنائية الأبعاد لتقييم قدرة النموذج على التجزئة باستخدام إشارة واحدة باستخدام أنواع مختلفة من الإشارات. على وجه التحديد، تستخدم مجموعات البيانات KiTS23 وATLAS23 وTDSC وWBC تقنية التلميح النقطي؛ تستخدم مجموعات البيانات SegRap وCrossM23 وREFUGE تلميحات BBox (المربع المحدد)؛ تستخدم مجموعات البيانات CadVidSet وSTAR وToothFairy تلميحات القناع.
هندسة النموذج: معالجة التجزئة الفعالة للصور الطبية ذات الأبعاد المختلفة
إن هندسة MedSAM-2 مشابهة بشكل أساسي لهندسة SAM 2، لكن فريق البحث قام أيضًا ببناء وحدة معالجة وخط أنابيب فريدة وفعالة لها، جنبًا إلى جنب مع بنك ذاكرة الثقة واستراتيجية الالتقاط المرجحة لضمان قدرات النموذج من الناحية الفنية.
خاصة،يظهر هيكل MedSAM-2 في الشكل أدناه.يشمل:
* مُشفِّر الصور، يُلخِّص المُدخلات في التضمين
* انتباه الذاكرة، الذي يستخدم الذكريات المخزنة في بنك الذاكرة لضبط تضمين الإدخال
* فك تشفير الذاكرة، الذي يلخص تضمين الإطار المتوقع

يُعد المشفر وفك التشفير في الشبكة مماثلاً لتلك الموجودة في SAM. يتكون المشفر من محول مرئي هرمي، ويشتمل فك التشفير على محول ثنائي الاتجاه خفيف الوزن يدمج التضمين الفوري وتضمين الصورة، حيث يتم إنشاء التضمين الفوري بواسطة المشفر الفوري؛ يتكون مكون انتباه الذاكرة من سلسلة من كتل الانتباه المكدسة، تحتوي كل منها على كتلة انتباه ذاتي وآلية انتباه متبادل.
ومن الجدير بالذكر أنأحد الابتكارات المهمة في MedSAM-2 هو التعامل مع معالجة الصور الطبية مثل تقسيم الفيديو.هذا هو المفتاح لتحسين أداء تقسيم الصور الطبية ثلاثية الأبعاد وفتح "وظيفة تقسيم المطالبة الفردية". ولتحقيق هذه الغاية، قام الفريق أيضًا بتطوير عمليتين تشغيليتين مختلفتين للصور الطبية ثنائية الأبعاد وثلاثية الأبعاد على التوالي لإجراء معالجة فعالة للتجزئة للصور الطبية ذات الأبعاد المختلفة.
لمعالجة الصور الطبية ثلاثية الأبعاد،نظرًا لوجود ارتباط زمني قوي بين الشرائح المتجاورة في الصور الطبية ثلاثية الأبعاد، فإن طريقة المعالجة تشبه تلك الخاصة ببيانات الفيديو. يتم استخدام نظام التخزين الأصلي لـ SAM 2 لاسترجاع الشرائح السابقة وتوقعاتها المقابلة لتجزئة الشريحة المستمرة. يتم بعد ذلك تعزيز تضمين الصورة المدخلة من خلال آلية انتباه الذاكرة، ويتم إضافة نتائج التجزئة مرة أخرى إلى منطقة التخزين للمساعدة في تجزئة الشرائح اللاحقة.
لمعالجة الصور الطبية ثنائية الأبعاد،تختلف طريقة المعالجة عن نظام "الداخل أولاً يخرج أولاً" الزمني المستخدم في SAM 2. بدلاً من ذلك، تُجمع مجموعة من الصور الطبية التي تحتوي على العضو أو النسيج نفسه في "تدفق صور طبية"، وتُستخدم منطقة تخزين "الثقة أولاً" لتخزين قوالب النموذج. يتم حساب الثقة بناءً على الاحتمالية التي يتنبأ بها النموذج، ويتم تنفيذ قيود تنوع الصورة. يتم اعتماد استراتيجية الاختيار المرجحة عند دمج تضمين صورة الإدخال ومعلومات منطقة الذاكرة. أثناء مرحلة التدريب، يتم استخدام رأس المعايرة للتأكد من أن تنبؤات النموذج أكثر دقة. في النهاية، يمكننا تحقيق التجزئة التلقائية للأهداف باستخدام عينة واحدة فقط دون أي ارتباط زمني.
النتائج التجريبية: MedSAM-2 يتفوق في الأداء والقدرة على التعميم
استخدم فريق البحث IoU (التقاطع على الاتحاد) و Dice Score لتقييم أداء النموذج في تقسيم الصور الطبية، وقدم مقياس Hausdorff Distance (HD95) لضمان دقة تقييم الأداء.
*LoU، المعروف أيضًا باسم مؤشر Jaccard، هو مقياس يستخدم لتقييم دقة كاشف الكائنات على مجموعة بيانات محددة.
* تعتبر نتيجة النرد، المعروفة أيضًا باسم معامل النرد، أداة إحصائية لمقارنة أوجه التشابه بين عينتين.
* مقياس مسافة هاوسدورف (HD95) هو مقياس يستخدم لتحديد درجة الاختلاف بين مجموعتين من النقاط. يتم استخدامه غالبًا لتقييم دقة حدود الكائنات في مهام تقسيم الصور ويكون فعالًا بشكل خاص في تحديد المسافة الأسوأ بين التقسيم المتوقع والحدود الفعلية.
أولاً، قام الفريق بمقارنة أداء MedSAM-2 بمجموعة من طرق تقسيم الصور الطبية SOTA، بما في ذلك مهام التقسيم للصور الطبية ثنائية وثلاثية الأبعاد. بالنسبة للصور الطبية ثلاثية الأبعاد، يتم تقديم التلميح بشكل عشوائي باحتمالية 0.25؛ بالنسبة للصور الطبية ثنائية الأبعاد، الاحتمال هو 0.3.
من أجل تقييم الأداء العام للنموذج المقترح على الصور الطبية ثلاثية الأبعاد،قام الفريق بمقارنة MedSAM-2 مع طرق التجزئة المتقدمة التي تم إنشاؤها على مجموعة بيانات تجزئة الأعضاء المتعددة BTCV، بما في ذلك نماذج nnUNET وTransUNet وUNetr وSwin-UNetr المعروفة، والنماذج القائمة على الانتشار (مثل EnsDiff وSegDiff وMedSegDiff). بالإضافة إلى ذلك، أجرى الفريق أيضًا تقييمات مقارنة على نماذج التجزئة التفاعلية مثل SAM الأصلي، وMedSAM المحسن بالكامل، وSAMed، وSAM-Med2D، وSAM-U، وVMN، وFCFI. يتم قياس الأداء باستخدام Dice Score، وتظهر النتائج في الشكل التالي:

وأظهرت النتائج أن MedSAM-2 كان تحسنًا كبيرًا مقارنة بـ SAM وMedSAM السابقين. في مجموعة بيانات BTCV، حقق MedSAM-2 أداءً ممتازًا في مهمة تقسيم الأعضاء المتعددة، حيث وصل إلى درجة Dice النهائية 88.57%. ومن بين النماذج التفاعلية، حافظ MedSAM-2 على مكانته الرائدة، متفوقًا على النموذج التفاعلي الرائد السابق Med-SA بمقدار 2.78%. تتطلب كل هذه النماذج التفاعلية مطالبات لكل إطار، بينما يحقق MedSAM-2 نتائج أفضل مع عدد أقل من المطالبات.
في مهمة تقسيم الصور الطبية ثنائية الأبعاد،قام الفريق بمقارنة MedSAM-2 مع طرق مصممة لمهام محددة على وسائط تصوير مختلفة. على وجه التحديد، بالنسبة لتجزئة الكأس البصرية، تمت مقارنتها مع ResUnet وBEAL؛ بالنسبة لتقسيم ورم المخ، تمت مقارنته مع TransBTS و SwinBTS؛ بالنسبة لتجزئة عقيدات الغدة الدرقية، تمت مقارنتها مع MTSeg وUltraUNet؛ لتقسيم آفات الجلد، تمت مقارنتها مع FAT-Net وBAT. بالإضافة إلى ذلك، قام الفريق أيضًا بمعايرة النموذج التفاعلي، وتظهر النتائج في الشكل أدناه:

وتظهر النتائج أن MedSAM-2 يتفوق على جميع الطرق الأخرى في 5 مهام مختلفة، مما يدل على قدرته الممتازة على التعميم في مهام تقسيم الصور الطبية المختلفة. وعلى وجه التحديد، حقق MedSAM-2 تحسنًا قدره 2.0% على الكؤوس البصرية، و1.6% على أورام المخ، و2.8% على عقيدات الغدة الدرقية. في مقارنة النماذج التفاعلية، لا يزال MedSAM-2 يحافظ على أدائه الرائد.
أخيرا،كما قام الفريق أيضًا بتقييم أداء MedSAM-2 عند إعطائه إشارة واحدة فقط.ولا يوجد ارتباط واضح بين الصور المتسلسلة، وهو ما يؤكد بشكل أكبر قدرة MedSAM-2 على تقسيم الإشارات من لقطة واحدة. على وجه التحديد، قارن الفريق MedSAM-2 مع PANet، وALPNeu، وSENet، وUniverSeg، والتي تم اختبارها جميعها باستخدام موجه واحد فقط. بالإضافة إلى ذلك، قام الفريق بمقارنة MedSAM-2 مع نماذج العدسة الفردية مثل DAT، وProbONE، وHyperSegNas، وOne-prompt.

تظهر النتائج أن MedSAM-2 يظهر قدرات تعميم قوية عبر مجموعة متنوعة من المهام، بل ويؤدي بشكل جيد مقارنة بـ One-prompt الذي تم تدريبه بشكل مكثف، حيث يتأخر في مهمة واحدة فقط من أصل 10 مهام. بالإضافة إلى ذلك، في السيناريوهات التي توفر فيها جميع الطرق أقنعة، يظهر MedSAM-2 ميزة أكثر وضوحًا، وغالبًا ما يتفوق على المركز الثاني بمقدار 3.1% في المتوسط، وهي أكبر فجوة بين جميع إعدادات المطالبة.
SAM يساعد في أبحاث تقسيم الصور الطبية على قدم وساق
يمكن اعتبار نشر هذه الورقة بمثابة استكشاف معمق آخر لإمكانات SAM وSAM 2 في المجال الطبي. ويقدم فكرة وطريقة جديدة لمجال تقسيم الصور الطبية، خاصة أنه يظهر إمكانات وقيمة كبيرة في التطبيقات السريرية. يمكنه تقليل عبء العمل في تقسيم الصور الطبية بشكل كبير وتحسين كفاءة ودقة تقسيم الصور الطبية.
والأمر الأكثر أهمية هو أنه كما ذكرنا في بداية المقال،تستكشف العديد من المختبرات والفرق الأكاديمية إمكانات SAM.في مجال تقسيم الصور الطبية، هناك أكثر من مجرد فريق جامعة أكسفورد المذكور في هذه الورقة.
وبالمصادفة، بعد وقت قصير من إصدار SAM، أطلق فريق البروفيسور ني دونج من كلية الهندسة الطبية الحيوية، كلية الطب، جامعة شنتشن، بالتعاون مع جامعة أكسفورد، والمعهد الفيدرالي السويسري للتكنولوجيا في زيورخ، وجامعة تشجيانغ، ومستشفى الشعب في شنتشن، ومؤسسة دوينغ الطبية، تجارب وتقييمات شاملة ومتعددة الزوايا حول تطبيق SAM في مهام التصوير الطبي. وقد تم نشر الأوراق والنتائج ذات الصلة في المجلة الدولية الرائدة في مجال تحليل الصور الطبية، "تحليل الصور الطبية"، تحت عنوان "نموذج أي شيء مقطعي للصور الطبية؟"

في البحث في هذه الورقة، قام الفريق المعني أخيرًا ببناء مجموعة بيانات تقسيم الصور الطبية فائقة الحجم COSMOS 1050K، والتي تتضمن 18 طريقة تصوير، و84 هدفًا لتقسيم الصور الطبية الحيوية، و1050 ألف صورة ثنائية الأبعاد، و6033 ألف قناع تقسيم. وبناءً على هذه المجموعة من البيانات، أجرى الباحثون تقييمًا شاملاً لـ SAM واستكشفوا طرقًا لتحسين قدرات SAM في إدراك الهدف الطبي.
تنزيل مباشر لمجموعة بيانات تقسيم الصور الطبية COSMOS 1050K:
بالإضافة إلى ذلك، أجرت فرق من كلية البيانات الضخمة بجامعة فودان وكلية الهندسة الطبية الحيوية بجامعة شنغهاي جياو تونغ سلسلة من الدراسات على SAM في مجال تقسيم الصور الطبية. عنوان الورقة البحثية ذات الصلة هو "نموذج تقسيم أي شيء لتقسيم الصور الطبية: التطبيقات الحالية والاتجاهات المستقبلية" وهي مدرجة في مواقع إلكترونية ومجلات أكاديمية معروفة مثل arXiv و Computer in Biology and Medicine.

تركز هذه الورقة على التطبيق المحتمل لـ SAM، الذي حقق إنجازات ملحوظة في تقسيم الصور الطبيعية، في مجال تقسيم الصور الطبية، وتستكشف الضبط الدقيق لوحدة SAM وإعادة تدريب البنى المعمارية المماثلة للتكيف مع تقسيم الصور الطبية.
عنوان الورقة:
https://www.sciencedirect.com/science/article/abs/pii/S0010482524003226
باختصار، وكما تمت مناقشته في الأوراق البحثية أعلاه، من خلال استكشاف إمكانات SAM، تمكن العلماء من جعل معالجة وتحليل الصور الطبية أبسط وأكثر كفاءة، وهو ما سيكون نتيجة تستحق التطلع إليها من قبل الأوساط الأكاديمية والمجتمع الطبي وحتى المرضى. وفي الوقت نفسه، أدى إصدار نماذج تقسيم الصور العامة مثل SAM أيضًا إلى فتح باب سحري لمختلف المجالات.أعتقد أنه ليس فقط مجال التصوير الطبي، بل أيضًا القيادة الذاتية، ووسائل الإعلام الجديدة، والواقع المعزز/الافتراضي... قد يستفيد بشكل كبير في المستقبل.
رسم الكتاب

لقد قدمت لك HyperAI ودار نشر صناعة الإلكترونيات كتبًا مجانية بشكل مشترك! لقد أعددنا 5 كتب علمية شعبية مفيدة للغاية بعنوان "الذكاء الاصطناعي من أجل العلم: الذكاء الاصطناعي يقود الابتكار العلمي"، تعال وشارك في السحب المحظوظ ~
كيفية المشاركة
اتبع الحساب الرسمي لـ HyperAI WeChat، وأجب بـ "كتاب AI4S المجاني" في الخلفية، وانقر على صفحة السحب المحظوظ للمشاركة في السحب المحظوظ. لقد قمنا بإعداد 5 كتب لك، والتي سيتم تسليمها إليك عن طريق التوصيل السريع. تعالوا وشاركوا!
مقدمة الكتاب
من التنبؤ ببنية البروتين إلى استنتاج مسببات الأمراض من الطفرات الجينية، سمح لنا النموذج الجديد الذي تقوده الذكاء الاصطناعي برؤية فرص جديدة في مختلف المجالات العلمية، بما في ذلك علوم الحياة.
يركز كتاب "الذكاء الاصطناعي من أجل العلوم: الذكاء الاصطناعي يقود الابتكار العلمي" على التكامل المتبادل للذكاء الاصطناعي مع خمسة مجالات رئيسية: علم المواد، وعلوم الحياة، والعلوم الإلكترونية، وعلوم الطاقة، وعلوم البيئة. ويستخدم لغة سهلة الفهم لتقديم المفاهيم الأساسية والمبادئ التقنية وسيناريوهات التطبيق بشكل شامل، مما يسمح للقراء بإتقان المعرفة الأساسية للذكاء الاصطناعي للعلوم بسرعة. وبالإضافة إلى ذلك، يقدم الكتاب لكل مجال متقاطع مقدمة مفصلة من خلال الحالات، ويوضح خريطة الصناعة، ويقدم رؤى سياسية ذات صلة.