ScribFormer: يُحسّن المُحَوِّل الأداء في العمل مع الشبكات العصبية التلافيفية (CNN) لتقسيم الصور الطبية القائمة على الرسم التخطيطي

تُعتمد معظم الطرق الحديثة للتحصيل المُرشَّح بالسَّبْك (scribble-supervised segmentation) بشكل شائع على إطار عمل يستند إلى الشبكات العصبية التلافيفية (CNN) ذات البنية المُشفِّرة-المُفكِّكة (encoder-decoder). وعلى الرغم من الفوائد المتعددة لهذا الإطار، فإنه يُعدّ عادةً قادرًا فقط على استخلاص الاعتماديات المحدودة النطاق من خلال طبقات التلافيف ذات مجال الاستقبال المحلي، مما يجعل من الصعب على النموذج تعلُّم معلومات الشكل الشاملة من المعلومات المحدودة التي توفرها علامات السَّبْك. ولحل هذه المشكلة، تُقدّم هذه الورقة حلًا هجينًا جديدًا يجمع بين الشبكات العصبية التلافيفية والمحولات (CNN-Transformer) لتطبيق التحصيل المُرشَّح بالسَّبْك في التصوير الطبي، ويُسمَّى نموذج "ScribFormer". يتميز نموذج ScribFormer المقترح ببنية ثلاثية الفروع، تشمل فرعًا هجينًا من الشبكة العصبية التلافيفية، وفرعًا للمحول (Transformer)، وفرعًا للخريطة النشطة الموجهة بالانتباه (ACAM). وبشكل خاص، يعمل الفرع التلافيفي مع الفرع المُحول على دمج السمات المحلية التي تتعلمها الشبكة التلافيفية مع التمثيلات الشاملة التي يحصل عليها المحول، مما يُمكّن من التغلب بفعالية على القيود المُستَعرَضة في الطرق الحالية للتحصيل المُرشَّح بالسَّبْك. علاوةً على ذلك، يُسهم فرع ACAM في توحيد السمات التلافيفية السطحية مع السمات العميقة، ما يُحسّن أداء النموذج بشكل إضافي. وقد أظهرت التجارب الواسعة على مجموعتين بيانات عامتين وواحدة خاصة نتائج متفوقة لنموذج ScribFormer مقارنةً بأفضل الطرق الحالية للتحصيل المُرشَّح بالسَّبْك، بل وتُفوق حتى نتائج الطرق المُرشَّحة بالكامل (fully-supervised segmentation). تم إصدار الشفرة المصدرية على الرابط: https://github.com/HUANGLIZI/ScribFormer.