تم اختياره لـ ECCV 2024! بتغطية أكثر من 54000 صورة، اقترح معهد ماساتشوستس للتكنولوجيا نموذجًا عامًا لتجزئة الصور الطبية، ScribblePrompt، والذي يتفوق على SAM

إن الشخص العادي يراقب الإثارة، بينما يراقب الخبير التفاصيل. هذه الجملة هي حقيقة مطلقة في مجال التصوير الطبي. ليس هذا فحسب، بل إنه حتى بالنسبة للخبير ليس من السهل أن يرى بدقة "الحيل" في الصور الطبية المعقدة مثل الأشعة السينية أو الأشعة المقطعية أو التصوير بالرنين المغناطيسي. تقسيم الصور الطبية هو فصل أجزاء معينة ذات معاني خاصة من الصور الطبية المعقدة واستخراج الميزات ذات الصلة، وذلك لمساعدة الأطباء في توفير تشخيص أكثر دقة وخطط علاج للمرضى وتوفير أساس أكثر موثوقية للباحثين العلميين لإجراء البحوث المرضية.
في السنوات الأخيرة، وبفضل تطور تكنولوجيا الكمبيوتر والتعلم العميق،تتسارع طريقة تقسيم الصور الطبية تدريجياً من التجزئة اليدوية إلى التجزئة الآلية، وأصبحت أنظمة الذكاء الاصطناعي المدربة مساعدة مهمة للأطباء والباحثين.ومع ذلك، ونظراً لتعقيد واحترافية الصور الطبية نفسها، فإن قدراً كبيراً من العمل في تدريب النظام لا يزال يعتمد على خبراء ذوي خبرة لتجزئة بيانات التدريب وإنشائها يدوياً، وهي عملية تستغرق وقتاً طويلاً وتتطلب عمالة مكثفة. وفي الوقت نفسه، واجهت طرق التجزئة القائمة على التعلم العميق الحالية أيضًا العديد من التحديات في الممارسة العملية، مثل مشكلات التطبيق ومتطلبات التفاعل المرنة.
من أجل معالجة القيود التي تواجه أنظمة التجزئة التفاعلية الحالية في التطبيقات العملية، تعاون فريق من مختبر علوم الكمبيوتر والذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا (MIT CSAIL) مع باحثين من مستشفى ماساتشوستس العام وكلية الطب بجامعة هارفارد لتطوير نظام تجزئة تفاعلي جديد يمكن استخدامه لتحديد وتجزئة الوجوه.نقترح نموذجًا عامًا لتجزئة الصور الطبية الحيوية التفاعلية، ScribblePrompt، وهي أداة تجزئة تعتمد على الشبكة العصبية التي تدعم المعلقين الذين يستخدمون طرق الشرح المختلفة مثل الخربشات والنقرات والمربعات المحددة لأداء مهام تجزئة الصور الطبية الحيوية بمرونة، حتى بالنسبة للعلامات وأنواع الصور غير المدربة.
تم إدراج البحث، الذي يحمل عنوان "ScribblePrompt: التجزئة التفاعلية السريعة والمرنة لأي صورة طبية حيوية"، في منصة arXiv الأكاديمية المشهورة دوليًا وتم قبوله من قبل المؤتمر الأكاديمي الدولي الأول ECCV 2024.
أبرز الأبحاث:
* أداء أي مهمة لتجزئة الصور الطبية الحيوية بسرعة ودقة، متفوقًا على النماذج الحديثة الموجودة، وخاصةً بالنسبة للعلامات وأنواع الصور غير المدربة
* يوفر أنماط توضيحية مرنة ومتنوعة، بما في ذلك الكتابة العشوائية والنقر والمربع المحدد
* كفاءة حسابية أعلى، مما يتيح الاستدلال السريع حتى على وحدة معالجة مركزية واحدة
* في دراسة مستخدم مع خبراء المجال، قللت الأداة وقت التعليق التوضيحي بمقدار 28% مقارنةً بـ SAM

عنوان الورقة:
https://arxiv.org/pdf/2312.07381
عنوان تنزيل مجموعة بيانات MedScribble:
تم إطلاق "أداة تقسيم الصور الطبية ScribblePrompt" في قسم HyperAI Super Neural Tutorial. يمكنك البدء باستنساخه بنقرة واحدة. عنوان البرنامج التعليمي هو:
مجموعات بيانات كبيرة وتغطية شاملة لتدريب النماذج وتقييم الأداء
وتبني الدراسة على جهود جمع مجموعات البيانات الكبيرة مثل MegaMedical، التي تجمع 77 مجموعة بيانات مفتوحة المصدر للتصوير الطبي الحيوي للتدريب والتقييم، وتغطي 54000 عملية مسح، و16 نوعًا من الصور، و711 ملصقًا.
تغطي صور مجموعات البيانات هذه مجالات طبية حيوية مختلفة، بما في ذلك مسح العيون والصدر والعمود الفقري والخلايا والجلد وعضلات البطن والرقبة والدماغ والعظام والأسنان والآفات؛ تشمل أنواع الصور المجاهر، والتصوير المقطعي المحوسب، والأشعة السينية، والتصوير بالرنين المغناطيسي، والموجات فوق الصوتية، والصور الفوتوغرافية.
من حيث التقسيم بين التدريب والتقييم،قام فريق البحث بتقسيم مجموعات البيانات الـ77 إلى 65 مجموعة بيانات تدريبية و12 مجموعة بيانات تقييمية.من بين 12 مجموعة بيانات تقييمية، تم استخدام بيانات 9 مجموعات بيانات تقييمية لتطوير النموذج واختيار النموذج والتقييم النهائي، وتم استخدام بيانات مجموعات البيانات التقييمية الثلاث الأخرى فقط للتقييم النهائي.
يتم تقسيم كل مجموعة بيانات إلى مجموعة تدريب ومجموعة تحقق ومجموعة اختبار بنسبة 6:2:2، كما هو موضح في الشكل أدناه.

الصورتان التاليتان هما "مجموعات بيانات التحقق والاختبار" و"مجموعات بيانات التدريب".من بينها، تكون "مجموعات البيانات الخاصة بالتحقق والاختبار" غير مرئية أثناء تدريب نموذج ScribblePrompt.


ونظراً للأحجام النسبية لمجموعات البيانات، فقد تأكد فريق البحث من أن كل مجموعة بيانات تحتوي على عدد فريد من عمليات المسح.
هندسة فعّالة للتفكير السريع، وبناء أدوات تقسيم عملية
واقترح فريق البحث طريقة تقسيم مرنة وتفاعلية ذات قابلية تطبيق عملية قوية يمكن توسيعها لتشمل مجالات جديدة للتصوير الطبي الحيوي ومناطق الاهتمام.
وقد قام فريق البحث بتوضيح الخطوات المتسلسلة لمحاكاة تقسيم التفاعل أثناء التدريب، كما هو موضح في الشكل أدناه. يتم إعطاء المدخلات زوجًا من تقسيم الصورة (xᵗ,yᵗ). يقوم الفريق أولاً بمحاكاة مجموعة أولية من التفاعلات u₁، والتي قد تتضمن مربعات حدودية أو نقرات أو خربشات، ثم ينتقل إلى الخطوة الأولى من التنبؤ، مع ضبط القيمة الأولية على 0. في الخطوة الثانية، يقوم الفريق بمحاكاة التنبؤات السابقة في منطقة الخطأ وإضافتها إلى المجموعة الأولية من التفاعلات بعد تصحيح المحاكاة للحصول على u₂. يتم تكرار ذلك لإنتاج سلسلة من التوقعات.

من أجل ضمان التطبيق العملي وسهولة استخدام النموذج،كما استخدم فريق البحث الخوارزمية أثناء التدريب لمحاكاة السيناريوهات العملية لكيفية الرسم والنقر وإدخال المربعات المحددة في مناطق مختلفة من الصور الطبية.

بالإضافة إلى المناطق المحددة بشكل شائع،قدم الفريق آلية لإنشاء علامات اصطناعية.يتم تطبيق خوارزمية superpixel لتوليد خريطة للعلامات الاصطناعية المحتملة، ثم يتم أخذ عينة من العلامة لتوليد "Ysynth" الموضح في الشكل، وأخيرًا يتم تطبيق زيادة البيانات العشوائية للحصول على النتيجة النهائية. يعمل هذا النهج من خلال العثور على أجزاء من الصورة ذات قيم مماثلة، ثم تحديد مناطق جديدة قد تكون موضع اهتمام الباحثين الطبيين، وتدريب ScribblePromt على تقسيمها. كما هو موضح في الشكل أدناه.

يستخدم هذا العرض البحثي بشكل أساسي بنيتين شبكيتين للتوضيح. الطريقة الأولى هي توضيح ScribblePrompt باستخدام بنية التفافية كاملة فعالة مشابهة لـ UNet، والطريقة الثانية هي توضيح ScribblePrompt باستخدام بنية محول مرئي.
من بينها، يستخدم ScribblePrompt-UNet شبكة CNN مكونة من 8 طبقات ويتبع بنية فك تشفير مماثلة لهندسة UNet الشائعة بدون معيار الدفعة. تحتوي كل طبقة ملتوية على 192 ميزة وتستخدم تنشيط PReLu. يجب توضيح أن السبب في عدم وجود طبقة تطبيع هو أنه في التجارب الأولية، وجد الفريق أن تضمين التطبيع لم يحسن متوسط النرد في بيانات التحقق مقارنة بعدم استخدام طبقة التطبيع، كما هو موضح في الشكل أدناه.

يتبنى ScribblePrompt-SAM نموذج SAM الأدنى ViT-b ويضبط فك التشفير الخاص به. يمكن لهندسة SAM إجراء تنبؤات إما في وضع القناع الفردي أو وضع الأقنعة المتعددة، حيث يقوم جهاز فك التشفير بإخراج تقسيم متوقع واحد مع الأخذ في الاعتبار صورة الإدخال وتفاعلات المستخدم. في وضع الأقنعة المتعددة، يتنبأ جهاز فك التشفير بثلاثة تقسيمات محتملة ثم يتنبأ بالتقسيم ذي أعلى IoU من خلال إخراج MLP. لتعظيم قدرة التعبير عن الهندسة المعمارية، نقوم بتدريب وتقييم ScribblePrompt-SAM في وضع الأقنعة المتعددة.
يُظهر ScribblePrompt تفوقًا على الأساليب الحالية
في هذه الدراسة، قارن فريق البحث ScribblePrompt-UNet وScribblePrompt-SAM مع الطرق الحديثة الموجودة، بما في ذلك SAM وSAM-Med2D وMedSAM وMIDeepSeg، من خلال تجارب الخربشة اليدوية والتفاعلات المحاكاة ودراسات المستخدم مع التعليقات التوضيحية ذات الخبرة.
في تجربة الكتابة اليدوية على الجدران،تظهر النتائج أن ScribblePrompt-UNet وScribblePrompt-SAM ينتجان التجزئة الأكثر دقة في مجموعة بيانات الخربشة اليدوية التجريبية والخربشة اليدوية بخطوة واحدة لمجموعة بيانات الخربشة ACDC، كما هو موضح في الجدول التالي.

لا يمكن تعميم SAM وSAM-Med 2D بسلاسة على المدخلات المكتوبة بخط اليد لأنه لم يتم تدريبهما. تتمتع MedSAM بتنبؤات أفضل من خطوط الأساس SAM الأخرى التي تستخدم بنية SAM، لكنها لا تستطيع استغلال الخربشات السلبية وبالتالي غالبًا ما تفوت التجزئة ذات الثغرات، كما هو موضح في الشكل أدناه. بالإضافة إلى ذلك، فإن التوقعات الأولية من شبكة MIDeepSeg ضعيفة ولكنها تتحسن بعد تطبيق عملية التحسين.

في تجربة التفاعل المحاكاة،تظهر النتائج أنه بالنسبة لجميع عمليات التفاعل المحاكاة لجميع أوقات التفاعل، أظهرت كلا نسختي ScribblePrompt تفوقًا على الطرق الأساسية. كما هو موضح في الشكل أدناه.

لتقييم الفائدة الفعلية لـ ScribblePrompt بشكل أكبر،أجرى الفريق دراسة للمستخدمين مع المعلقين ذوي الخبرة.هذه الجولة من المقارنة هي بين ScribblePrompt-UNet وSAM (Vit-b) الذي حصل على أعلى درجة نرد في تجربة النقر أعلاه. وأظهرت النتائج أن المشاركين أنتجوا تقسيمات أكثر دقة عند استخدام ScribblePrompt-UNet، كما هو موضح في الجدول أدناه. وفي الوقت نفسه، استغرق كل تقسيم حوالي 1.5 دقيقة في المتوسط باستخدام ScribblePrompt-UNet، مقارنة بأكثر من دقيقتين لكل تقسيم باستخدام SAM.

أفاد ستة عشر مشاركًا أنه كان من الأسهل تحقيق تقسيم الهدف باستخدام ScribblePrompt مقارنة بـ SAM، وقال 15 منهم إنهم يفضلون استخدام ScribblePrompt، ولم يكن لدى المشارك المتبقي أي تفضيل. بالإضافة إلى ذلك، فضل 93.8% من المشاركين ScribblePrompt على خط الأساس SAM لأنه حسّن الأجزاء المقابلة لتصحيحات الخربشة، كما فضل 87.5% من المشاركين أيضًا استخدام ScribblePrompt للتحرير القائم على النقر.
وتؤكد النتائج المذكورة أعلاه مرة أخرى الأسباب الأكثر شيوعًا التي تجعل المشاركين يفضلون ScribblePrompt - التصحيح الذاتي والميزات التفاعلية الغنية. هذا غير ممكن بالطرق الأخرى. على سبيل المثال، في عملية تقسيم الوريد الشبكي، يواجه SAM صعوبة في تقديم تنبؤات دقيقة حتى مع التصحيحات المتعددة.

بالإضافة إلى ذلك، يُظهر ScribblePrompt أيضًا التكلفة المنخفضة والنشر السهل. توصلت الدراسة إلى أن ScribblePrompt-UNet يستغرق 0.27 ثانية فقط لكل توقع على وحدة معالجة مركزية واحدة، مع خطأ أقل من 0.04 ثانية. كما هو موضح في الشكل أعلاه، وحدة معالجة الرسوميات هي Nvidia Quatro RTX8000. في حين يستغرق SAM (Vit-h) أكثر من دقيقتين لكل تنبؤ على وحدة المعالجة المركزية، يستغرق SAM (Vit-b) حوالي 14 ثانية لكل تنبؤ. وهذا يوضح بلا شك إمكانية تطبيق هذا النموذج في البيئات ذات الموارد المنخفضة للغاية.
تحرير الطاقم الطبي والباحثين من العمل الذي يستغرق وقتًا طويلاً ويتطلب جهدًا كبيرًا
لقد أظهر الذكاء الاصطناعي منذ فترة طويلة إمكانات كبيرة في تحليل الصور ومعالجة البيانات عالية الأبعاد الأخرى. أصبحت عملية تقسيم الصور الطبية، باعتبارها المهمة الأكثر شيوعًا في تحليل الصور الطبية الحيوية ومعالجتها، بطبيعة الحال أحد مجالات الاختبار المهمة لتمكين الذكاء الاصطناعي.
بالإضافة إلى هذه الدراسة،وكما ذكر في المقال، فإن SAM هي أيضًا واحدة من الأدوات الرئيسية التي جذبت أكبر قدر من الاهتمام من فرق البحث العلمي ذات الصلة في السنوات الأخيرة.وقد أجرت شركة HyperAI في السابق أبحاثًا متابعة حول قضايا ذات صلة، مثل تم إطلاق أحدث تطبيق لبرنامج SAM 2! أصدر فريق جامعة أكسفورد Medical SAM 2، مُحدّثًا بذلك قائمة SOTA لتجزئة الصور الطبية.وفي هذه الورقة البحثية، شارك فريق جامعة أكسفورد اكتشافهم لإمكانات SAM في تقسيم الصور الطبية.
أظهرت الدراسة نموذجًا لتجزئة الصور الطبية يسمى Medical SAM 2 والذي طوره فريق من جامعة أكسفورد. تم تصميمه على أساس إطار عمل SAM 2، فهو لا يتفوق فقط في مهام تقسيم الصور الطبية ثلاثية الأبعاد من خلال التعامل مع الصور الطبية كمقاطع فيديو، بل يفتح أيضًا إمكانية تقسيم جديدة بمطالبة واحدة. كل ما يحتاجه المستخدم هو تقديم تلميح لكائن محدد جديد، ويمكن إكمال عملية تقسيم الكائنات المشابهة في الصور اللاحقة تلقائيًا بواسطة النموذج دون الحاجة إلى إدخال إضافي.
بالتأكيد،بالإضافة إلى SAM، هناك العديد من الدراسات الأخرى حول طرق تقسيم الصور الطبية القائمة على التعلم العميق.على سبيل المثال، تم تضمين دراسة بعنوان "Scribformer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation" في المجلة والمجلة المشهورة عالميًا IEEE Transactions on Medical Imaging.

ونشرت الدراسة فريق من الباحثين من مؤسسات متعددة بما في ذلك جامعة شيامن، وجامعة بكين، والجامعة الصينية في هونج كونج، وجامعة شنغهاي للتكنولوجيا، وجامعة هال في المملكة المتحدة.اقترحت الدراسة حلاً هجينًا جديدًا لـ CNN-Transformer لتجزئة الصور الطبية الخاضعة للإشراف على الكتابة على الجدران، والذي يسمى ScribFormer.
باختصار، سواء كانت نتائج أبحاث معهد ماساتشوستس للتكنولوجيا، أو الابتكارات القائمة على SAM، أو غيرها من الأساليب الجديدة، فإن الهدف هو نفسه. كما يقول المثل، كل الطرق تؤدي إلى روما. إن تطبيق الذكاء الاصطناعي في المجال الطبي يعود بالنفع على الطب والمجتمع.
كما قال هالي إي وونغ، المؤلف الرئيسي لورقة ScribblePrompt وطالب الدكتوراه في معهد ماساتشوستس للتكنولوجيا،"نريد تعزيز جهود العاملين في المجال الطبي بدلاً من استبدالها من خلال نظام تفاعلي."
مراجع:
1.https://news.mit.edu/2024/scribbleprompt-helping-doctors-annotate-medical-scans-0909
2.https://arxiv.org/pdf/2312.0738