HiFuse: شبكة اندماج الميزات متعددة المقياس الهرمية للتصنيف الطبي للصور

طورت تصنيف الصور الطبية بشكل سريع بفضل الشبكة العصبية التلافيفية (CNN). ومع أن حقل الاستقبال الثابت لعمليات التلافيف يجعل من الصعب التقاط الخصائص الشاملة للصور الطبية، فإن نموذج Transformer القائم على الانتباه الذاتي قادر على نمذجة الاعتماديات الطويلة المدى، لكنه يعاني من تعقيد حسابي عالٍ ونقص في التحيز المحلي التلقائي. وقد أثبتت أبحاث كثيرة أن الخصائص الشاملة والمحليّة تُعدّ حاسمة في تصنيف الصور. ومع ذلك، فإن الصور الطبية تحتوي على العديد من السمات الضوضائية والمبعثرة، وتباينات داخل الفئة، وتشابهات بين الفئات. تقدم هذه الورقة بنية شبكة هيراركية متعددة المقياس ذات ثلاثة فروع تُسمى HiFuse كطريقة جديدة لتصنيف الصور الطبية. تُمكّن هذه البنية من دمج المزايا الخاصة بـ Transformer وCNN من خلال هيراركيات متعددة المقياس دون التأثير على قدرات النمذجة الخاصة بكل منهما، مما يُحسّن دقة التصنيف لعدة أنواع من الصور الطبية. تم تصميم هيراركية متوازية من وحدات الخصائص المحلية والشاملة لاستخراج الخصائص المحلية والتمثيلات الشاملة بكفاءة على مقاييس معنوية مختلفة، مع مرونة في النمذجة على مقاييس متعددة وتعقيد حسابي خطي بالنسبة لحجم الصورة. علاوةً على ذلك، صُمّمت وحدة دمج ميزات هيراركية تكيفية (HFF block) لاستخدام الخصائص المستخلصة على مستويات هيراركية مختلفة بشكل شامل. تحتوي وحدة HFF على انتباه مكاني، وانتباه قنواتي، وشريحة MLP عكسية مُتبقية، واتصالات مختصرة (shortcut)، لتمكين الدمج التكيفي للمعلومات المعنوية بين الخصائص المختلفة المقياس لكل فرع. بلغت دقة النموذج المقترح في هذه الدراسة 7.6% أعلى من النموذج الأساسي على مجموعة بيانات ISIC2018، و21.5% على مجموعة بيانات كوفيد-19، و10.4% على مجموعة بيانات Kvasir. وعند مقارنتها بغيرها من النماذج المتقدمة، أظهر نموذج HiFuse أفضل أداء. ويُتاح الكود المصدري للنموذج عبر الرابط التالي: https://github.com/huoxiangzuo/HiFuse.