MISSFormer: نموذج ترانسفورمر فعّال للتقسيم الصوتي للصورة الطبية

لقد حققت الطرق القائمة على الشبكات العصبية التلافيفية (CNN) نتائج مبهرة في تقسيم الصور الطبية، لكنها فشلت في التقاط الاعتماديات طويلة المدى نظرًا للطبيعة المحلية المتأصلة في عملية التلافيف. أما الطرق القائمة على نماذج التحويل (Transformer)، فهي حديثًا شائعة في المهام البصرية بفضل قدرتها على معالجة الاعتماديات طويلة المدى والأداء الواعد. ومع ذلك، فإنها تفتقر إلى القدرة على نمذجة السياق المحلي. في هذه الورقة، وكمثال على تقسيم الصور الطبية، نقدم "MISSFormer"، وهو نموذج فعّال وقوي لتقسيم الصور الطبية باستخدام التحويل. يُعدّ MISSFormer شبكة ترميز-فك ترميز هرمية تتميز بتصميمين مميزين: 1) إعادة تصميم شبكة التغذية الأمامية باستخدام الكتلة المُحسَّنة للتحويل (Enhanced Transformer Block)، التي تعزز الاعتماديات طويلة المدى وتكمّل السياق المحلي، مما يجعل الميزات أكثر تمييزًا. 2) نقترح "جسر السياق المُحسَّن للتحويل" (Enhanced Transformer Context Bridge)، والذي يختلف عن الطرق السابقة التي نمذجت فقط المعلومات العالمية، حيث يستخرج الجسر المقترح، باستخدام الكتلة المُحسَّنة للتحويل، الاعتماديات طويلة المدى والسياق المحلي لميزات متعددة المقاييس التي تولّدها وحدة الترميز الهرمية المبنية على التحويل. وبفضل هذين التصميمين، يُظهر MISSFormer قدرة قوية على التقاط اعتماديات وسياقات أكثر تمييزًا في تقسيم الصور الطبية. أظهرت التجارب على مهام تقسيم الأعضاء المتعددة والقلب التفوق والفعالية والمتانة لنموذج MISSFormer، حيث تفوقت نتائج التجارب الخاصة بـ MISSFormer المدرب من الصفر على النماذج الرائدة التي تم تدريبها مسبقًا على ImageNet. ويمكن تعميم التصاميم الأساسية على مهام تقسيم بصرية أخرى. تم إتاحة الكود على GitHub: https://github.com/ZhifangDeng/MISSFormer