التدريب المسبق ذاتي التعلّم لمحولات Swin لتحليل الصور الطبية ثلاثية الأبعاد

أظهرت نماذج التحويلات البصرية (ViT) أداءً متميزًا في التعلم ذاتي الاتجاه لتمثيلات عالمية ومحليّة يمكن نقلها إلى التطبيقات التالية. مستوحاة من هذه النتائج، نقدّم إطارًا جديدًا للتعلم ذاتي الاتجاه يعتمد على مهام مُحاكاة مخصصة لتحليل الصور الطبية. وبشكل خاص، نقترح: (أ) نموذجًا جديدًا قائمًا على التحويلات ثلاثية الأبعاد، يُدعى Swin UNEt TRansformers (Swin UNETR)، يمتلك مشغلًا هرميًا لتدريب مُسبق ذاتي الاتجاه؛ (ب) مهام مُحاكاة مُخصصة لتعلم الأنماط الكامنة في التشريح البشري. وقد أظهرنا نجاح التدريب المسبق للنموذج المقترح على 5050 صورة مُتاحة علنًا من التصوير المقطعي المحوسب (CT) من أعضاء جسم مختلفة. وتم التحقق من فعالية منهجنا من خلال ضبط النماذج المُدرّبة مسبقًا على مُسابقة تجزئة Beyond the Cranial Vault (BTCV) التي تتضمّن 13 عضوًا في البطن، وكذلك على مهام التجزئة من مجموعة بيانات Medical Segmentation Decathlon (MSD). ويُعدّ نموذجنا حاليًا الأفضل في مجاله (أي يحتل المرتبة الأولى) في لوحات التصنيف العامة للبيانات الخاصة بكل من MSD وBTCV. الكود: https://monai.io/research/swin-unetr