SegFormer3D: محول فعّال لتصنيف الصور الطبية ثلاثية الأبعاد

يمثل اعتماد هياكل قائمة على نماذج الرؤية ذات المحولات (Vision Transformers - ViTs) تقدّمًا كبيرًا في تقسيم الصور الطبية ثلاثية الأبعاد (3D Medical Image - MI)، حيث يتفوّق على النماذج التقليدية القائمة على الشبكات العصبية التلافيفية (Convolutional Neural Networks - CNNs) من خلال تحسين الفهم السياقي الشامل. وعلى الرغم من أن هذا التحوّل المنهجي قد عزّز بشكل كبير أداء التقسيم ثلاثي الأبعاد، إلا أن النماذج الرائدة حاليًا تتطلب هياكل معقدة جدًا وضخمة، بالإضافة إلى موارد حسابية ضخمة لتدريبها ونشرها. علاوةً على ذلك، في سياق مجموعات بيانات محدودة، التي تُعدّ شائعة في مجال التصوير الطبي، قد تمثّل النماذج الكبيرة عوائق أمام تعميم النموذج والتقارب أثناء التدريب. ورداً على هذه التحديات، ولإثبات أن النماذج الخفيفة الوزن تمثل مجالًا بحثيًا ذا قيمة في التصوير الطبي ثلاثي الأبعاد، نقدّم نموذج SegFormer3D، وهو محول هرمي يحسب الانتباه عبر ميزات حجمية متعددة المقياس. بالإضافة إلى ذلك، يتجنب SegFormer3D مُفكّكًا معقدًا، ويستخدم مُفكّكًا بالكامل مبنيًا على الشبكات العصبية متعددة الطبقات (MLP) لدمج ميزات الانتباه المحلية والعالمية، بهدف إنتاج قناع تقسيم دقيق للغاية. ويحافظ هذا المحول الفعّال من حيث الذاكرة على خصائص الأداء لنموذج كبير بشكل كبير ضمن تصميم مدمج. وبهذا، يُمكّن SegFormer3D من تعميم التعلم العميق في مجال تقسيم الصور الطبية ثلاثية الأبعاد، من خلال تقديم نموذج يمتلك 33 ضعفًا أقل عددًا من المعاملات، وانخفاضًا بنسبة 13 ضعفًا في عدد العمليات (GFLOPS) مقارنةً بالنموذج الرائد الحالي (SOTA). وقد قمنا بمقارنة SegFormer3D مع النماذج الرائدة حاليًا على ثلاث مجموعات بيانات شائعة الاستخدام: Synapse و BRaTs و ACDC، وحقق نتائج تنافسية. الكود: https://github.com/OSUPCVLab/SegFormer3D.git