المحول التكاملي الكامل للتحسيس الصور الطبية

نُقدّم نموذجًا جديدًا لمحول (Transformer) قادر على تقسيم الصور الطبية المتنوعة الوسائط. تُشكّل التحديات الناتجة عن الطبيعة الدقيقة للتحليل الطبي للصور ما يجعل تكييف المحولات لهذا التحليل ما زال في مراحله الأولى. وقد نتجت النجاح الهائل لنموذج UNet عن قدرته على فهم الطبيعة الدقيقة لمهام التقسيم، وهي قدرة لا تمتلكها حاليًا النماذج القائمة على المحولات. وللتصدي لهذا العيب، نُقدّم "المحول التام التوافقي" (Fully Convolutional Transformer - FCT)، الذي يستند إلى القدرة المثبتة لشبكات التعلم التوافقي (Convolutional Neural Networks) في تعلّم تمثيلات صور فعّالة، ويجمعها مع قدرة المحولات على التقاط الاعتماديات طويلة المدى في المدخلات بشكل فعّال. يُعدّ FCT أول نموذج محول تام التوافقي في الأدبيات الطبية للتصوير. يعالج مدخلاته في مرحلتين: الأولى، حيث يتعلّم استخلاص الاعتماديات الدلالية على المدى الطويل من الصورة المدخلة، والثانية، حيث يتعلّم التقاط السمات العالمية الهرمية من الميزات المستخرجة. يتميّز FCT بالكفاءة، والدقة، والثبات. تُظهر نتائجنا أنه يتفوّق على جميع النماذج المحولة الحالية بفارق كبير عبر عدة مجموعات بيانات لتقسيم الصور الطبية المتنوعة الوسائط، دون الحاجة إلى أي تدريب مسبق. ويتفوّق FCT على منافسه المباشر على مجموعة بيانات ACDC بنسبة 1.3%، وعلى مجموعة Synapse بنسبة 4.4%، وعلى مجموعة Spleen بنسبة 1.2%، وعلى مجموعة ISIC 2017 بنسبة 1.1% وفقًا لمعيار دايكس (Dice metric)، مع استخدام ما يصل إلى خمسة أضعاف أقل عدد من المعاملات (parameters). سيتم إتاحة الشفرة البرمجية، والبيئات، والنماذج عبر GitHub.