الهياكل العميقة للتعلم لتشخيص اعتلال الشبكية السكري
على مدار سنوات عديدة، سيطرت الشبكات العصبية التلافيفية (Convolutional Neural Networks) على مجال الرؤية الحاسوبية، لا سيما في المجال الطبي، حيث تم معالجة مشكلات مثل تقسيم الصور باستخدام شبكات مثل U-Net. يبدو أن ظهور الشبكات القائمة على الانتباه الذاتي (self-attention-based networks) في مجال الرؤية الحاسوبية من خلال نماذج ViT قد غير الاتجاه السائد نحو استخدام التلافيف القياسية. طوال هذا العمل، قمنا بتطبيق معمليات معمارية مختلفة مثل U-Net وViT وConvMixer، لمقارنة أدائها في مسألة التقسيم الدلالي الطبي. تم تدريب جميع النماذج من الصفر على مجموعة بيانات DRIVE، وتم تقييمها على نسخها الخاصة لتقييم أي من النماذج أدى إلى أداء أفضل في مسألة التقسيم. يكمن إسهامنا الرئيسي في إظهار أن النموذج الأفضل أداءً (ConvMixer) هو النموذج الذي يتبنى النهج المستخدم في ViT (معالجة الصور كقطع صغيرة)، مع الحفاظ على الوحدات الأساسية (التفعيلات التلافيفية) من U-Net. هذا المزيج لا يُنتج نتائج أفضل (DICE = 0.83) مقارنةً بكل من ViT (0.80 / 0.077 لـ UNETR / SWIN-Unet) وU-Net (0.82) بشكل منفصل، بل يقلل بشكل كبير من عدد المعلمات (2.97 مليون مقابل 104 مليون / 27 مليون و31 مليون على التوالي)، مما يُظهر أنه ليس من الضروري استخدام نماذج كبيرة بشكل منتظم لحل مشكلات الصور، حيث يمكن للهياكل الأصغر التي تجمع بين المكونات المثلى أن تحقق نتائج أفضل.