segmentation الصور الطبية باستخدام محولات الضغط والتوسع

التفصيل الصور الطبية مهم للتشخيص المدعوم بالحاسوب. يتطلب التفصيل الجيد من النموذج رؤية الصورة الكبيرة والتفاصيل الدقيقة في الوقت نفسه، أي تعلم خصائص الصور التي تدمج السياق الكبير مع الحفاظ على دقة فضائية عالية. لتحقيق هذا الهدف، فإن أكثر الطرق استخدامًا -- U-Net ومشتقاتها -- تستخلص وتدمج خصائص متعددة الأحجام. ومع ذلك، فإن الخصائص المستخلصة لا تزال لديها حقول استقبال فعالة صغيرة تركز على المؤشرات المحلية للصور، مما يحد من أدائها. في هذه الدراسة، نقترح Segtran، إطار عمل بديل للتفصيل يستند إلى المتحولات (transformers)، والتي لديها حقول استقبال فعالة غير محدودة حتى عند دقة الخواص العالية. جوهر Segtran هو المتحول الضاغط والمتوسع (Squeeze-and-Expansion transformer) الجديد: ينظم كتلة الانتباه المضغوطة انتباه الذات للمتحولات، بينما يتعلم كتلة التوسع تمثيلات متنوعة. بالإضافة إلى ذلك، نقترح مخطط ترميز موضعي جديد للمتحولات، يفرض تحيز الاستمرارية للصور. أجريت التجارب على مهام تفصيل صور طبية ثنائية وثلاثية الأبعاد: تفصيل القرص والكأس البصري في صور قاع العين (تحدي REFUGE'20)، وتفصيل البولييب في صور التنظير البروستاني، وتفصيل الأورام الدماغية في المسح بالرنين المغناطيسي (تحدي BraTS'19). بالمقارنة مع الأساليب الموجودة الأكثر تمثيلاً، حققت Segtran باستمرار أعلى دقة في التفصيل وأظهرت قدرات عامّة جيدة عبر المجالات المختلفة. تم إصدار شفرة المصدر لـ Segtran على الرابط https://github.com/askerlee/segtran.