AgileFormer: Spatially Agile Transformer UNet للفصل في الصور الطبية

في العقود الماضية، حققت الشبكات العصبية العميقة، وخاصة شبكات النيورونات التلافيفية، أداءً رائدًا في مجموعة متنوعة من مهام تقسيم الصور الطبية. مؤخرًا، قدّمت تقنية ترانسفورمر الرؤية (Vision Transformer - ViT) تغييرًا كبيرًا في مجال نماذج التقسيم العميقة. ازداد التركيز على ترانسفورمرات الرؤية بفضل أدائها الممتاز وقدرتها على التوسع. ومع ذلك، نعتقد أن التصميم الحالي لنماذج التقسيم القائمة على ترانسفورمر الرؤية والمدمجة مع UNet (ViT-UNet) قد لا يتعامل بشكل فعال مع التنوع في مظهر الأهداف (مثل الاختلافات في الأشكال والأحجام) في مهام تقسيم الصور الطبية. لمواجهة هذا التحدي، نقدم منهجية منظمة لإدخال مكونات ديناميكية مكانياً إلى ViT-UNet. هذه التعديلات تمكّن النموذج من التقاط خصائص الأهداف ذات المظاهر المختلفة بكفاءة. يتم تحقيق ذلك عبر ثلاثة مكونات رئيسية: \textbf{(i)} غرس الباث المتغير (Deformable Patch Embedding)؛ \textbf{(ii)} الانتباه متعدد الرؤوس الديناميكي مكانياً (Spatially Dynamic Multi-Head Attention)؛ \textbf{(iii)} الترميز الموضعي المتغير (Deformable Positional Encoding). تم دمج هذه المكونات في هندسة جديدة سميت AgileFormer. AgileFormer هو نموذج ViT-UNet ديناميكي مكانياً صمم خصيصاً لتقسيم الصور الطبية. أثبتت التجارب التي أجريت على ثلاث مهام تقسيم باستخدام قواعد بيانات عامة فعالية الطريقة المقترحة. يمكن الوصول إلى الكود من خلال الرابط \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer}.