EfficientMorph: هندسة مستندة إلى التحويلات ذات كفاءة المعلمات لتسجيل الصور ثلاثية الأبعاد

ظهرت نماذج الترانسفورمر كأفضل المعماريات في مجال تسجيل الصور الطبية، حيث تفوقت على الشبكات العصبية التلافيفية (CNNs) من خلال معالجة حقول الاستقبال المحدودة لديها وتخطي عدم الاستقرار في التدرجات في النماذج الأعمق. ومع ذلك، فإن النماذج المستندة إلى الترانسفورمر تتطلب موارد كبيرة للتدريب، بما في ذلك البيانات والذاكرة والقوة الحسابية، مما قد يحد من قابليتها للتطبيق لدى المستخدمين النهائيين الذين لديهم موارد محدودة. بشكل خاص، تواجه معماريات الترانسفورمر القائمة على تسجيل الصور ثلاثية الأبعاد فجوتين حرجتين تتحدى كفاءتها وفعاليتها. أولاً، رغم أن آليات الانتباه القائمة على النوافذ تقلل من التعقيد الكمي للاهتمام الكامل عن طريق التركيز على المناطق المحلية، إلا أنها غالباً ما تجد صعوبة في دمج المعلومات المحلية والعالمية بفعالية. ثانيًا، فإن حجم التقسيم (tokenization)، وهو عامل حاسم في دقة التسجيل، يمثل تنازلًا في الأداء: فالتقسيمات ذات الحجم البكسل (voxel) الأصغر تعزز التقاط التفاصيل ولكنها تأتي مع زيادة التعقيد الحسابي واستخدام الذاكرة الأعلى وخطر الانطباع الزائد (overfitting) الأكبر.نقدم \name، وهي معمارية مستندة إلى الترانسفورمر لتسجيل الصور ثلاثية الأبعاد بدون إشراف تقوم بتوازن الانتباه المحلي والعالمي في الحجوم الثلاثية الأبعاد من خلال آلية انتباه قائمة على الطائرات (plane-based attention mechanism) وتستخدم استراتيجية تقسيم عالية الدقة مع عمليات دمج، مما يمكنها من التقاط التفاصيل الدقيقة دون المساس بالكفاءة الحسابية. وبشكل لافت للنظر، حققت \name معيارًا جديدًا للأداء على مجموعة بيانات OASIS باستخدام 16-27 مرة أقل من المعالم.https://github.com/MedVIC-Lab/Efficient_Morph_Registration