LViT: لغة تلتقي بمحول الرؤية في التجزئة الطبية للصور

تم استخدام التعلم العميق على نطاق واسع في تقسيم الصور الطبية والجوانب الأخرى. ومع ذلك، تظل أداء النماذج الحالية لتقسيم الصور الطبية محدودًا بسبب صعوبة الحصول على كميات كافية من البيانات المُعلَّمة عالية الجودة، نظرًا لتكاليف التسمية المرتفعة جدًا. ولتخفيف هذه القيود، نقترح نموذجًا جديدًا لتقسيم الصور الطبية يعتمد على تعزيز النصوص يُسمى LViT (اللغة تلتقي بالمحول البصري). في نموذج LViT الخاص بنا، يتم دمج التسميات النصية الطبية لتعويض النقص في جودة البيانات الصورية. علاوةً على ذلك، يمكن للبيانات النصية أن توجه عملية إنشاء تسميات افتراضية (Pseudo labels) ذات جودة محسّنة في بيئة التعلم شبه المُعلَّم. كما نقترح آلية تُسمى "التحديث الأسي للتسميات الافتراضية" (EPI) لمساندة وحدة الانتباه على مستوى البكسل (PLAM) في الحفاظ على الخصائص المحلية للصورة في بيئة LViT شبه المُعلَّمة. في نموذجنا، تم تصميم خسارة LV (اللغة-البصري) لمواكبة عملية تدريب الصور غير المُعلَّمة باستخدام المعلومات النصية مباشرة. ولغرض التقييم، قمنا ببناء ثلاث مجموعات بيانات متعددة الوسائط (صورة + نص) تتضمن صور الأشعة السينية والتصوير المقطعي المحوسب (CT). أظهرت النتائج التجريبية أن نموذج LViT المقترح يحقق أداءً متفوقًا في كلا البيئتين: الكاملة المُعلَّمة وشبه المُعلَّمة. يمكن الوصول إلى الكود والبيانات من خلال الرابط التالي: https://github.com/HUANGLIZI/LViT.