منذ 2 أشهر

HuatuoGPT-Vision، نحو دمج المعرفة البصرية الطبية في النماذج اللغوية متعددة الوسائط على نطاق واسع

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

الملخص

شهدت النماذج الكبيرة متعددة الوسائط (MLLMs)، مثل GPT-4V، تقدماً ملحوظاً بفضل تطورها السريع. ومع ذلك، تواجه هذه النماذج تحديات في القدرات الطبية متعددة الوسائط نظراً لقيود كمية ونوعية البيانات الطبية التي تجمع بين الصور والنصوص، والتي تُعزى إلى مخاوف الخصوصية وتكاليف التصنيف العالية. ورغم أن النُهج الابتكارية استخدمت أزواج الصور والنصوص الطبية الكبيرة الحجم من مكتبة PubMed (المُعَزَّزة بحذف الهوية) لمعالجة هذه القيود، إلا أنها ما زالت تُعاني من عيوب تكمن في التلوث الداخلي للبيانات. وللتصدي لهذا التحدي، قمنا بتحسين أزواج الصور والنصوص الطبية المستمدة من PubMed، واستخدمنا نماذج MLLMs (مثل GPT-4V) بأسلوب "غير مُعَمَّى" (unblinded) لتنقية البيانات وإعادة تنسيقها، ما أدى إلى إنشاء مجموعة بيانات تُسمى PubMedVision، والتي تضم 1.3 مليون عينة لمهام استجابة الأسئلة الطبية المبنية على الصور (VQA). وتوصلت عمليات التحقق لدينا إلى النتائج التالية: (1) تُظهر PubMedVision قدرة كبيرة على تعزيز القدرات الطبية متعددة الوسائط للنماذج الحالية من MLLMs، مع ملاحظة تحسن ملحوظ في اختبارات الأداء، بما في ذلك مسار الصحة والطب في معيار MMMU؛ (2) تؤكد التحقق اليدوي من قِبل خبراء طبيين والنتائج التجريبية جودة عالية وفوق المتوسط لبياناتنا مقارنة بأساليب بناء البيانات الأخرى. وباستخدام PubMedVision، قمنا بتدريب نموذج MLLM طبي بحجم 34 مليار معلمة يُسمى HuatuoGPT-Vision، الذي أظهر أداءً متفوّقاً في السيناريوهات الطبية متعددة الوسائط مقارنةً بالنماذج المفتوحة المصدر الأخرى.

مستودعات الكود

freedomintelligence/huatuogpt-vision

رسمي

pytorch

مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette