HyperAIHyperAI
منذ 17 أيام

PMC-CLIP: التدريب المتناظر للغة والصورة باستخدام المستندات الطبية الحيوية

Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
PMC-CLIP: التدريب المتناظر للغة والصورة باستخدام المستندات الطبية الحيوية
الملخص

نموذج الأساس المدرب على مجموعة بيانات كبيرة شهد ازديادًا حديثًا في مجالات الرؤية الحاسوبية واللغة الطبيعية. في المقابل، يظل التقدم في المجال الحيوي متأخرًا بشكل كبير بسبب ندرة البيانات. ولحل هذه المشكلة، قمنا بإنشاء ونشر مجموعة بيانات حيوية تُسمى PMC-OA، والتي تحتوي على 1.6 مليون زوج من الصور والنصوص الوصفية (image-caption) تم جمعها من مجموعة الوصول المفتوح في PubMedCentral، ما يُعدّ 8 أضعاف حجم المجموعات السابقة. تغطي PMC-OA تنوعًا واسعًا في الوسائط أو الأمراض، مع أن معظم أزواج الصور والنصوص الوصفية مُحاذاة على مستوى دقيق، أي على مستوى الصور الفرعية (subfigure) والنصوص الفرعية (subcaption). أثناء تدريب نموذج من نوع CLIP على مجموعة PMC-OA، حقق نموذجنا المُسمى PMC-CLIP أداءً متقدمًا على مختلف المهام اللاحقة، بما في ذلك استرجاع الصور والنصوص على مجموعة ROCO، وتصنيف صور MedMNIST، وفهم الأسئلة الطبية (Medical VQA)، حيث سجل تحسنًا بنسبة +8.1% في مؤشر R@10 لاسترجاع الصور والنصوص، و+3.9% في دقة التصنيف الصوري.