Command Palette
Search for a command to run...
HuatuoGPT-Vision، نحو دمج المعرفة البصرية الطبية في النماذج اللغوية متعددة الوسائط على نطاق واسع

الملخص
شهدت النماذج الكبيرة متعددة الوسائط (MLLMs)، مثل GPT-4V، تقدماً ملحوظاً بفضل تطورها السريع. ومع ذلك، تواجه هذه النماذج تحديات في القدرات الطبية متعددة الوسائط نظراً لقيود كمية ونوعية البيانات الطبية التي تجمع بين الصور والنصوص، والتي تُعزى إلى مخاوف الخصوصية وتكاليف التصنيف العالية. ورغم أن النُهج الابتكارية استخدمت أزواج الصور والنصوص الطبية الكبيرة الحجم من مكتبة PubMed (المُعَزَّزة بحذف الهوية) لمعالجة هذه القيود، إلا أنها ما زالت تُعاني من عيوب تكمن في التلوث الداخلي للبيانات. وللتصدي لهذا التحدي، قمنا بتحسين أزواج الصور والنصوص الطبية المستمدة من PubMed، واستخدمنا نماذج MLLMs (مثل GPT-4V) بأسلوب "غير مُعَمَّى" (unblinded) لتنقية البيانات وإعادة تنسيقها، ما أدى إلى إنشاء مجموعة بيانات تُسمى PubMedVision، والتي تضم 1.3 مليون عينة لمهام استجابة الأسئلة الطبية المبنية على الصور (VQA). وتوصلت عمليات التحقق لدينا إلى النتائج التالية: (1) تُظهر PubMedVision قدرة كبيرة على تعزيز القدرات الطبية متعددة الوسائط للنماذج الحالية من MLLMs، مع ملاحظة تحسن ملحوظ في اختبارات الأداء، بما في ذلك مسار الصحة والطب في معيار MMMU؛ (2) تؤكد التحقق اليدوي من قِبل خبراء طبيين والنتائج التجريبية جودة عالية وفوق المتوسط لبياناتنا مقارنة بأساليب بناء البيانات الأخرى. وباستخدام PubMedVision، قمنا بتدريب نموذج MLLM طبي بحجم 34 مليار معلمة يُسمى HuatuoGPT-Vision، الذي أظهر أداءً متفوّقاً في السيناريوهات الطبية متعددة الوسائط مقارنةً بالنماذج المفتوحة المصدر الأخرى.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.