نهج متعدد الوسائط لتصنيف صور VCE المنظارية باستخدام BiomedCLIP-PubMedBERT

تقدم هذه الورقة منهجًا متقدمًا لضبط النموذج الدقيق BiomedCLIP PubMedBERT، وهو نموذج متعدد الوسائط، لتصنيف التشوهات في إطارات التنظير بالكبسولة (VCE)، بهدف تعزيز كفاءة التشخيص في الرعاية الصحية الهضمية. من خلال دمج نموذج اللغة PubMedBERT مع نموذج التحويل البصري (Vision Transformer - ViT) لمعالجة الصور التنظيرية، يتم تصنيف الصور إلى عشر فئات محددة: تمدد الأوعية الدموية، النزيف، التقرحات، الاحمرار، الأجسام الغريبة، تمدد الليمف، الورم، القرحة، الديدان، والحالة الطبيعية. يشمل نهجنا معالجة الصور مسبقًا وضبط النموذج BiomedCLIP بدقة لاستخراج تمثيلات عالية الجودة لكل من المدخلات البصرية والنصية، مع محاذاة هذه التمثيلات من خلال تقييم التشابه لغرض التصنيف. تُظهر مقاييس الأداء، بما في ذلك الدقة، والدقة، والاسترجاع، ودقة F1، قدرة النموذج القوية على تحديد التشوهات بدقة في إطارات التنظير، مما يوحي بإمكانية استخدامه العملي في التشخيص السريري.