بوليب-بيفي تي: التجزئة البوليبية باستخدام محولات الرؤية الهرمية

تستخدم معظم طرق تجزئة الأورام الغدية (polyps) الشبكات العصبية التلافيفية (CNNs) كهيكل أساسي، مما يؤدي إلى مشكلتين رئيسيتين عند تبادل المعلومات بين الجزء المشفر (encoder) والجزء الفكّاك (decoder): 1) أخذ التفاوت في المساهمة بين الميزات المختلفة على المستويات المختلفة بعين الاعتبار، و2) تصميم آلية فعّالة لدمج هذه الميزات. على عكس الطرق القائمة على CNN، نعتمد في هذا العمل على معالج ترانسفورمر (transformer encoder)، الذي يتعلم تمثيلات أكثر قوة وثباتًا. بالإضافة إلى ذلك، وبما أن تأثير اكتساب الصور وطبيعة الأورام الغدية الخفية (elusive properties) يُعدان عاملين مؤثرَين، نُقدّم ثلاث وحدات قياسية، تشمل وحدة دمج متسلسلة (CFM)، ووحدة تحديد التمويه (CIM)، ووحدة تجميع التشابه (SAM). حيث تُستخدم وحدة CFM لجمع المعلومات الدلالية والموقعية للأورام الغدية من الميزات عالية المستوى؛ بينما تُطبَّق وحدة CIM لاستخلاص معلومات الأورام المُخفيّة في الميزات منخفضة المستوى؛ أما وحدة SAM، فهي تمتد لتوسيع ميزات البكسل في منطقة الأورام باستخدام معلومات دلالية ومكانية عالية المستوى على كامل المنطقة، مما يُمكّن من دمج فعّال للميزات عبر المستويات المختلفة. ويُسمّى النموذج المقترح Polyp-PVT، وهو يُظهر قدرة فعّالة على كبح الضوضاء في الميزات وتحسين قدرات التعبير عنها بشكل كبير. وتشير التجارب الواسعة التي أُجريت على خمسة مجموعات بيانات شائعة الاستخدام إلى أن النموذج المقترح أكثر مقاومةً لظروف التحدي المختلفة (مثل التغيرات في المظهر، والأجسام الصغيرة، والدوران) مقارنةً بالطرق الممثلة الحالية. يُمكن الوصول إلى النموذج المقترح عبر الرابط التالي: https://github.com/DengPingFan/Polyp-PVT.