مِست: مُقسِّم صور طبية باستخدام محول مع مُضاعف انتباه تكاملي (CAM) كمُفكِّك

إحدى الطرق الشائعة والواعدة في التعلم العميق المستخدمة في تقسيم الصور الطبية هي نماذج المحولات (Transformers)، حيث يمكنها استيعاب الاعتماديات طويلة المدى بين البكسلات من خلال استخدام الانتباه الذاتي (self-attention). وعلى الرغم من نجاحها في تقسيم الصور الطبية، تواجه المحولات قيودًا في استيعاب السياقات المحلية للبكسلات في الأبعاد متعددة الوسائط. نقترح نموذجًا جديدًا يُسمى "محول تقسيم الصور الطبية" (MIST)، يعتمد على مُفكّك (decoder) مبتكر يُدعى "مُمزج الانتباه التوافقي" (Convolutional Attention Mixing - CAM) لمعالجة هذه المشكلة. يتكوّن MIST من جزأين: يستخدم محول الرؤية متعدد المحاور المُدرّب مسبقًا (MaxViT) كمُشفر (encoder)، ويُمرر التمثيل المُشفر للسمات عبر مُفكّك CAM لتقسيم الصور. في مُفكّك CAM، تم تقديم مُزيج انتباه (attention-mixer) يدمج بين الانتباه الذاتي متعدد الرؤوس، والانتباه المكاني، ووحدات الانتباه المُضخّم والمنبّه (squeeze and excitation attention)، بهدف استيعاب الاعتماديات طويلة المدى في جميع الأبعاد المكانية. علاوة على ذلك، لتعزيز استخلاص المعلومات المكانية، تم استخدام تحويلات عميقة وسطحية على التوالي لاستخراج السمات وتوسيع مجال الاستقبال (receptive field). كما يُمكّن الاتصال بالسياق (skip connections) من دمج السمات من المستويات المنخفضة والمرتفعة من مراحل الشبكة المختلفة، مما يسمح لـ MIST بتقليل المعلومات غير الضرورية. أظهرت التجارب أن نموذج MIST مع مُفكّك CAM يتفوّق على النماذج المتطورة حديثًا المصممة خصيصًا لتقسيم الصور الطبية على مجموعتي البيانات ACDC وSynapse. كما تُظهر النتائج أن إضافة مُفكّك CAM إلى محول هرمي يُحسّن أداء التقسيم بشكل ملحوظ. يُتاح نموذجنا مع الشفرة المصدرية والبيانات للجمهور على منصة GitHub.