Medical Transformer: انتباه محوري مُتحكم في التصنيف الطبي للصور الطبية

خلال العقد الماضي، تم اعتماد الشبكات العصبية التلافيفية العميقة على نطاق واسع في مهام تقسيم الصور الطبية، وأظهرت أداءً مقبولًا. ومع ذلك، نظرًا للتحيّزات الاستنتاجية المتأصلة في الهياكل التلافيفية، فإنها تفتقر إلى الفهم للعوامل الترابطية طويلة المدى في الصورة. واقتُرح مؤخرًا هياكل تعتمد على المُحَوِّل (Transformer) التي تستفيد من آلية الانتباه الذاتي (self-attention) لتمكين الترميز للعوامل الترابطية طويلة المدى وتعلم تمثيلات ذات تعبير قوي جدًا. هذا يحفّزنا على استكشاف الحلول القائمة على المُحَوِّل ودراسة إمكانية استخدام هياكل الشبكات القائمة على المُحَوِّل في مهام تقسيم الصور الطبية. ومع أن معظم الهياكل القائمة على المُحَوِّل المُقترحة لتطبيقات الرؤية الحاسوبية تتطلب مجموعات بيانات ضخمة للتدريب بشكل فعّال، إلا أن عدد العينات في بيانات التصوير الطبي يكون محدودًا مقارنةً ببيانات الرؤية الحاسوبية، مما يجعل التدريب الفعّال للمحولات على البيانات الطبية أمرًا صعبًا. ولحل هذه المشكلة، نقترح نموذجًا يُسمى Gated Axial-Attention، والذي يُعدّل الهياكل الحالية من خلال إدخال آلية تحكم إضافية داخل وحدة الانتباه الذاتي. علاوةً على ذلك، لتمكين التدريب الفعّال للنموذج على الصور الطبية، نُقدّم استراتيجية تدريب محلي-كليّة (LoGo)، التي تُحسّن الأداء بشكل إضافي. بشكل خاص، نُطبّق النموذج على الصورة الكاملة وعلى القطع الصغيرة (patches) لاستخلاص الخصائص المحلية والكليّة على التوالي. وقد تم تقييم النموذج الطبي المُقترح (MedT) على ثلاث مجموعات بيانات مختلفة لتقسيم الصور الطبية، وأظهرت النتائج أنه يحقق أداءً أفضل من الهياكل التلافيفية والهياكل القائمة على المُحَوِّل الأخرى. الكود: https://github.com/jeya-maria-jose/Medical-Transformer