نموذج مهجّن لـ MetaFormer وCNN لتقسيم صور البواسير
أصبحت الأساليب المستندة إلى Transformer هي المهيمنة في مجال البحث في الصور الطبية منذ تحقيق نموذج Vision Transformer أداءً متميزًا. وعلى الرغم من أن النماذج القائمة على Transformer قد حلّت مشكلة الاعتماد الطويل المدى المتأصلة في الأساليب القائمة على الشبكات العصبية التلافيفية (CNN)، إلا أنها تواجه صعوبات في التقاط المعلومات التفصيلية المحلية. وتركز الأبحاث الحديثة على الجمع القوي بين المعلومات التفصيلية المحلية والمعلومات الدلالية. ولحل هذه المشكلة، نقترح شبكة هجينة جديدة تجمع بين Transformer وCNN تُسمى RAPUNet. تعتمد الطريقة المقترحة على MetaFormer كهيكل أساسي لنموذج Transformer، وتُدخل وحدة تلافيفية مخصصة تُسمى RAPU (وحدة التلافيف المتوازية للتماثل والتفريغ المُتعدد) لتعزيز السمات المحلية وتخفيف مشكلة الجمع بين السمات المحلية والعالمية. تم تقييم أداء التجزئة الخاص بـ RAPUNet على مجموعات بيانات معيارية شهيرة لتجزئة الأورام الدقيقة، بما في ذلك Kvasir-SEG وCVC-ClinicDB وCVC-ColonDB وEndoScene-CVC300 وETIS-LaribPolypDB. وأظهرت النتائج التجريبية أن نموذجنا يحقق أداءً تنافسيًا من حيث متوسط معامل Dice ومتوسط معامل IoU. وبشكل خاص، تفوق RAPUNet على أحدث الأساليب المُعلنة على مجموعة بيانات CVC-ClinicDB. الكود متاح: https://github.com/hyunnamlee/RAPUNet