ViT-V-Net: نموذج محول الرؤية للتسجيل غير المراقب للصور الطبية الحجمية

خلال العقد الماضي، سادت الشبكات العصبية التلافيفية (ConvNets) وحققت أداءً متقدماً في مجموعة متنوعة من التطبيقات الطبية المرئية. ومع ذلك، لا تزال أداءات ConvNets محدودة بسبب نقص فهم العلاقات المكانية على المدى الطويل داخل الصورة. وقد اقترح مؤخراً نموذج "مُحول الرؤية" (Vision Transformer - ViT) لتصنيف الصور، والذي يعتمد على نموذج خالص يعتمد على الانتباه الذاتي لتعلم العلاقات المكانية على المدى الطويل، بهدف التركيز على الأجزاء ذات الصلة في الصورة. ومع ذلك، يُولِّي ViT اهتماماً أكبر بالسمات منخفضة الدقة نظراً للانخفاض المتتالي في الدقة، مما يؤدي إلى نقص في معلومات التحديد الدقيق، ما يجعله غير مناسب لمهام التسجيل الصوري. ومؤخراً، تم دمج عدة طرق لتصنيف الصور المستندة إلى ViT مع ConvNets لتحسين استعادة معلومات التحديد الدقيق. مستوحاة من هذه الجهود، نقدم هنا نموذجاً يُسمى ViT-V-Net، الذي يربط بين ViT وConvNet لتوفير تسجيل صور طبية حجمية (Volumetric). وتُظهر النتائج التجريبية المقدمة هنا أن المعمارية المقترحة تحقق أداءً متفوّقاً مقارنة بعديد من الطرق الرائدة في تسجيل الصور.