Focal-UNet: توليد تركيزي من نوع UNet لتقسيم الصور الطبية

في الآونة الأخيرة، تم بذل العديد من المحاولات لبناء بنية U-شكلية مبنية على المُحَوِّل (Transformer)، وتم اقتراح طرق جديدة تفوق نماذج تعتمد على الشبكات العصبية التلافيفية (CNN). ومع ذلك، ما زالت هناك مشكلات خطيرة مثل ظهور تأثيرات "الكتل" (blockiness) والحواف المقطوعة في الخرائط المُتنبَّأ بها، وذلك بسبب عمليات تقسيم اللقطات (patch partitioning) التي تُطبَّق في المُحَوِّلات. في هذه الدراسة، نقترح بنية U-شكلية جديدة لتصنيف الصور الطبية باستخدام آلية التوليف المركّز (focal modulation) التي تم تقديمها حديثًا. تتميز البنية المقترحة بعمق غير متماثل بين الجزء المشفر (encoder) والجزء المعكوس (decoder). وبفضل قدرة الوحدة المركّزة (focal module) على جمع السمات المحلية والعالمية، يمكن لنموذجنا الاستفادة في آنٍ واحد من مجال الاستقبال الواسع الخاص بالمُحَوِّلات، وكذلك من الرؤية المحلية المميزة للشبكات التلافيفية. يساعد هذا التوازن في تحسين استخدام السمات المحلية والعالمية، مما يمكّن النموذج من التفوق على أحد أكثر النماذج القائمة على المُحَوِّلات قوةً، والمعروفة باسم Swin-UNet. وقد حققنا تحسنًا بنسبة 1.68% في معامل DICE، وتحسينًا بنسبة 0.89 في معامل HD على مجموعة بيانات Synapse. وبالإضافة إلى ذلك، في ظل بيانات محدودة جدًا، سجلنا تحسنًا بنسبة 4.25% في معامل DICE على مجموعة بيانات NeoPolyp. تتوفر النماذج التنفيذية لدينا عبر الرابط التالي: https://github.com/givkashi/Focal-UNet