HyperAIHyperAI

Command Palette

Search for a command to run...

PMC-VQA: ضبط التوجيه البصري لأسئلة الإجابة الطبية البصرية

Zhang Xiaoman ; Wu Chaoyi ; Zhao Ziheng ; Lin Weixiong ; Zhang Ya ; Wang Yanfeng ; Xie Weidi

الملخص

يقدم نظام الإجابة على الأسئلة الطبية المرئية (MedVQA) فرصة كبيرة لتحسين دقة التشخيص وتقديم الرعاية الصحية من خلال الاستفادة من الذكاء الاصطناعي لتفسير وإجابة الأسئلة المستندة إلى الصور الطبية. في هذه الدراسة، نعيد صياغة مشكلة MedVQA كمهمة توليدية تتبع بشكل طبيعي التفاعل بين الإنسان والآلة، ونقترح نموذجًا مبنيًا على التوليد للفهم البصري الطبي من خلال مواءمة المعلومات البصرية من مُشفِّر رؤية مُدرب مسبقًا مع نموذج لغوي كبير. نقوم بإنشاء خط أنابيب قابل للتوسع لبناء مجموعة بيانات طبية مرئية كبيرة للأسئلة والأجوبة، والتي أطلقنا عليها اسم PMC-VQA، وتتضمن 227 ألف زوج سؤال وجواب (VQA) لـ 149 ألف صورة تغطي مختلف الوسائط أو الأمراض. ندرب النموذج المقترح على PMC-VQA ثم نقوم بضبطه الدقيق على عدة مقاييس عامة، مثل VQA-RAD، SLAKE، و Image-Clef-2019، مما يؤدي إلى تفوقه بشكل كبير على النماذج الموجودة من MedVQA في إنتاج إجابات حرة ذات صلة ودقيقة. بالإضافة إلى ذلك، نقترح مجموعة اختبار تم التحقق منها يدويًا وهي أكثر تحديًا بكثير، مما يساعد في مراقبة أفضل لتطور طرق MedVQA التوليدية. لتسهيل التقييم الشامل والمقارنة، قدمنا لوحة تصنيف متوفرة على الرابط:https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medicalتوفير مصدر مركزي لمتابعة التقدم ومعايرة أحدث الأساليب. تعتبر مجموعة البيانات PMC-VQA مصدرًا حاسمًا للمجال البحثي، ويعد MedVInTbreakthrough (MedVInT) خطوة مهمة نحو تحقيق تقدم كبير في مجال MedVQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp