التفريق الصوري الطبي عبر فك الترميز بالانتباه المتسلسل

أظهرت نماذج التحويل (Transformers) إمكانات كبيرة في تقسيم الصور الطبية بفضل قدرتها على التقاط الاعتماديات طويلة المدى من خلال الانتباه الذاتي. ومع ذلك، فإنها تفتقر إلى القدرة على تعلّم العلاقات المحلية (السياقية) بين البكسلات. حاولت الدراسات السابقة التغلب على هذه المشكلة من خلال دمج طبقات التصفية التلافيفية (convolutional layers) إما في وحدات المُشفِّر (encoder) أو المُفكِّك (decoder) لنموذج التحويل، مما أدى في بعض الأحيان إلى ظهور ميزات غير متسقة. ولحل هذه المشكلة، نقترح مُفكِّكًا جديدًا يعتمد على الانتباه يُسمى CASCaded Attention DEcoder (CASCADE)، الذي يستفيد من الخصائص متعددة المقياس للنماذج البصرية الهرمية (hierarchical vision transformers). يتكوّن CASCADE من: (أ) بوابة انتباه تقوم بدمج الميزات باستخدام اتصالات التخطّي (skip connections)، و(ب) وحدة انتباه تلافيفية تعزز السياق الطويل والموقع المحلي من خلال تقليل المعلومات الخلفية. استخدمنا إطارًا متعدد المراحل لجمع الميزات والخسارة، نظرًا لسرعته في التقارب وأداؤه الأفضل. تُظهر تجاربنا أن النماذج القائمة على التحويل مع CASCADE تتفوّق بشكل كبير على أحدث الطرق القائمة على الشبكات العصبية التلافيفية (CNN) والتحويلات، حيث حققت تحسينات تصل إلى 5.07% و6.16% في معايير DICE وmIoU على التوالي. يُمكّن CASCADE من ابتكار طرق جديدة لتصميم مُفكِّكات قائمة على الانتباه بشكل أكثر فعالية.