ResViT: نماذج تحويل البصرية المتبقية لتخليق الصور الطبية متعددة الوسائط

أصبحت النماذج التوليدية المتعارضة ذات الهياكل العصبية التلافيفية (CNN) حديثًا هي الأفضل في العديد من مهام توليد الصور الطبية. ومع ذلك، فإن الشبكات العصبية التلافيفية مصممة لتنفيذ معالجة محلية باستخدام مرشحات محدودة الحجم، مما يؤدي إلى تقليل قدرتها على استخلاص السمات السياقية. في هذا العمل، نقترح منهجية توليدية متعارضة جديدة لتحسين الصور الطبية تُسمى ResViT، والتي تستفيد من الحساسية السياقية للنماذج المرئية القائمة على المحولات (Vision Transformers) إلى جانب دقة العمليات التلافيفية وواقعية التعلم المتعارض. يعتمد مُولّد ResViT على عقدة مركزية مكوّنة من كتل جديدة تُعرف بـ "المحولات التراكمية المتبقية" (ART)، والتي تجمع بشكل متكامل بين الوحدات التلافيفية المتبقية والوحدات القائمة على المحولات. تعزز الروابط المتبقية داخل كتل ART تنوع التمثيلات المُستخرجة، في حين تقوم وحدة الضغط القنوي بتكثيف المعلومات ذات الصلة بالمهام. كما تم تقديم استراتيجية مشاركة الأوزان بين كتل ART لتقليل الحمل الحسابي. بالإضافة إلى ذلك، تم تقديم تنفيذ موحد يُقلل الحاجة إلى إعادة بناء نماذج منفصلة لتكوينات مختلفة بين الوسائط المصدرية والهدفية. أُجريت تجارب واسعة النطاق لتوليد التسلسلات المفقودة في التصوير بالرنين المغناطيسي متعدد التباين، وكذلك لتوليد صور الأشعة المقطعية (CT) من الصور الطبية بالرنين المغناطيسي (MRI). تُظهر النتائج تفوق ResViT على الطرق القائمة على CNN والطرق القائمة على المحولات من حيث المعايير النوعية والكمية.