nnFormer: مُحَوِّل مُتَنَقِّطٌ للفصل الحجمي

أظهر نموذج Transformer، الذي يُعد الخيار المفضل في معالجة اللغة الطبيعية، اهتمامًا محدودًا من قبل مجتمع التصوير الطبي. وبالنظر إلى قدرته على استغلال الاعتماديات الطويلة الأمد، يُعدّ Transformer واعدًا في مساعدة الشبكات العصبية التلافيفية غير التقليدية على التغلب على عيوبها الجوهرية المتعلقة بالانحياز المكاني. ومع ذلك، فإن معظم الطرق المُقترحة حديثًا لتقسيم الصور الطبية القائمة على Transformer تتعامل مع النموذج كوحدة مساعدة لدمج السياق العالمي في التمثيلات التلافيفية. لمعالجة هذه المشكلة، نقدّم nnFormer، وهو نموذج ثلاثي الأبعاد من نوع Transformer مخصص لتقسيم الصور الطبية الحجمية. لا يقتصر nnFormer على استغلال التوليف بين العمليات المتداخلة للتفصيل (convolution) والانتباه الذاتي (self-attention)، بل يُقدّم أيضًا آلية انتباه ذاتي محلية وعالمية قائمة على الحجم لتعلم تمثيلات الحجم. علاوة على ذلك، يقترح nnFormer استخدام "الانتباه المُمرّر" (skip attention) بدلًا من العمليات التقليدية مثل الربط (concatenation) أو الجمع (summation) في الروابط المُمرّرة (skip connections) ضمن البنية المماثلة لنموذج U-Net. أظهرت التجارب أن nnFormer يتفوق بشكل كبير على النماذج السابقة القائمة على Transformer بفارق كبير على ثلاث مجموعات بيانات عامة. مقارنةً بنموذج nnUNet، يُنتج nnFormer قيمًا أدنى بكثير لـ HD95 مع نتائج مماثلة من حيث DSC. وأخيرًا، نُظهر أن nnFormer وnnUNet متكاملان للغاية عند دمجهما في نموذج مجمّع (model ensembling).