PMC-VQA: ضبط التوجيه البصري لأسئلة الإجابة الطبية البصرية

يقدم نظام الإجابة على الأسئلة الطبية المرئية (MedVQA) فرصة كبيرة لتحسين دقة التشخيص وتقديم الرعاية الصحية من خلال الاستفادة من الذكاء الاصطناعي لتفسير وإجابة الأسئلة المستندة إلى الصور الطبية. في هذه الدراسة، نعيد صياغة مشكلة MedVQA كمهمة توليدية تتبع بشكل طبيعي التفاعل بين الإنسان والآلة، ونقترح نموذجًا مبنيًا على التوليد للفهم البصري الطبي من خلال مواءمة المعلومات البصرية من مُشفِّر رؤية مُدرب مسبقًا مع نموذج لغوي كبير. نقوم بإنشاء خط أنابيب قابل للتوسع لبناء مجموعة بيانات طبية مرئية كبيرة للأسئلة والأجوبة، والتي أطلقنا عليها اسم PMC-VQA، وتتضمن 227 ألف زوج سؤال وجواب (VQA) لـ 149 ألف صورة تغطي مختلف الوسائط أو الأمراض. ندرب النموذج المقترح على PMC-VQA ثم نقوم بضبطه الدقيق على عدة مقاييس عامة، مثل VQA-RAD، SLAKE، و Image-Clef-2019، مما يؤدي إلى تفوقه بشكل كبير على النماذج الموجودة من MedVQA في إنتاج إجابات حرة ذات صلة ودقيقة. بالإضافة إلى ذلك، نقترح مجموعة اختبار تم التحقق منها يدويًا وهي أكثر تحديًا بكثير، مما يساعد في مراقبة أفضل لتطور طرق MedVQA التوليدية. لتسهيل التقييم الشامل والمقارنة، قدمنا لوحة تصنيف متوفرة على الرابط:https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medicalتوفير مصدر مركزي لمتابعة التقدم ومعايرة أحدث الأساليب. تعتبر مجموعة البيانات PMC-VQA مصدرًا حاسمًا للمجال البحثي، ويعد MedVInTbreakthrough (MedVInT) خطوة مهمة نحو تحقيق تقدم كبير في مجال MedVQA.