دمج ميزات FCN-Transformer لتقسيم الأنسجة القيحية

يُعتبر المنظار القولوني (Colonoscopy) الإجراء الذهبي المعترف به على نطاق واسع للكشف المبكر عن سرطان القولون والمستقيم (CRC). يُعد التجزئة (Segmentation) ذات قيمة كبيرة لتطبيقين سريريين مهمين، وهما كشف الورم وتصنيفه، حيث توفر وسيلة لتحسين الدقة والمتانة. إن التجزئة اليدوية للورم في صور المنظار القولوني تستهلك وقتًا طويلًا. ونتيجة لذلك، أصبح استخدام التعلم العميق (DL) لأتمتة تجزئة الورم أمرًا بالغ الأهمية. ومع ذلك، يمكن أن تكون الحلول القائمة على التعلم العميق عرضة للانحدار الزائد (Overfitting)، مما يؤدي إلى عدم القدرة على التعميم على صور تم التقاطها باستخدام مناظير قولونية مختلفة. وقد حققت المعماريات الحديثة القائمة على المحولات (Transformer) لأغراض التجزئة الدلالية (Semantic Segmentation) أداءً أعلى وتميّزًا أفضل في التعميم مقارنة بالبدائل، لكنها تُقدّم عادةً خريطة تجزئة بابعاد مساحية قدرها $\frac{h}{4}\times\frac{w}{4}$ لصورة إدخال بابعاد $h\times w$. ولتحقيق ذلك، نقترح معمارية جديدة للتجزئة بحجم كامل، حيث تستفيد من القوة المميزة للمحول في استخلاص أهم الميزات المطلوبة للتجزئة في فرع أولي، بينما تُكمّل قصوره في التنبؤ بحجم كامل من خلال فرع ثانوي مبني بالكامل على الشبكات التلافيفية (Fully Convolutional). ثم تُدمج الميزات الناتجة من كلا الفرعين لإجراء التنبؤ النهائي بخريطة تجزئة بحجم $h\times w$. ونُظهر أداءً متميزًا لطريقتنا مقارنة بالأساليب الحالية من حيث مقاييس mDice و mIoU و mPrecision و mRecall، على مجموعتي بيانات التقييم Kvasir-SEG و CVC-ClinicDB. علاوةً على ذلك، قمنا بتدريب النموذج على كل من هاتين المجموعتين ثم قمنا بتقييمه على الأخرى، مما يُظهر أداءً متفوقًا في التعميم.