PMC-CLIP: التدريب المتناظر للغة والصورة باستخدام المستندات الطبية الحيوية

نموذج الأساس المدرب على مجموعة بيانات كبيرة شهد ازديادًا حديثًا في مجالات الرؤية الحاسوبية واللغة الطبيعية. في المقابل، يظل التقدم في المجال الحيوي متأخرًا بشكل كبير بسبب ندرة البيانات. ولحل هذه المشكلة، قمنا بإنشاء ونشر مجموعة بيانات حيوية تُسمى PMC-OA، والتي تحتوي على 1.6 مليون زوج من الصور والنصوص الوصفية (image-caption) تم جمعها من مجموعة الوصول المفتوح في PubMedCentral، ما يُعدّ 8 أضعاف حجم المجموعات السابقة. تغطي PMC-OA تنوعًا واسعًا في الوسائط أو الأمراض، مع أن معظم أزواج الصور والنصوص الوصفية مُحاذاة على مستوى دقيق، أي على مستوى الصور الفرعية (subfigure) والنصوص الفرعية (subcaption). أثناء تدريب نموذج من نوع CLIP على مجموعة PMC-OA، حقق نموذجنا المُسمى PMC-CLIP أداءً متقدمًا على مختلف المهام اللاحقة، بما في ذلك استرجاع الصور والنصوص على مجموعة ROCO، وتصنيف صور MedMNIST، وفهم الأسئلة الطبية (Medical VQA)، حيث سجل تحسنًا بنسبة +8.1% في مؤشر R@10 لاسترجاع الصور والنصوص، و+3.9% في دقة التصنيف الصوري.