HyperAIHyperAI

Command Palette

Search for a command to run...

HuatuoGPT-Vision، نحو دمج المعرفة البصرية الطبية في النماذج اللغوية متعددة الوسائط على نطاق واسع

الملخص

شهدت النماذج الكبيرة متعددة الوسائط (MLLMs)، مثل GPT-4V، تقدماً ملحوظاً بفضل تطورها السريع. ومع ذلك، تواجه هذه النماذج تحديات في القدرات الطبية متعددة الوسائط نظراً لقيود كمية ونوعية البيانات الطبية التي تجمع بين الصور والنصوص، والتي تُعزى إلى مخاوف الخصوصية وتكاليف التصنيف العالية. ورغم أن النُهج الابتكارية استخدمت أزواج الصور والنصوص الطبية الكبيرة الحجم من مكتبة PubMed (المُعَزَّزة بحذف الهوية) لمعالجة هذه القيود، إلا أنها ما زالت تُعاني من عيوب تكمن في التلوث الداخلي للبيانات. وللتصدي لهذا التحدي، قمنا بتحسين أزواج الصور والنصوص الطبية المستمدة من PubMed، واستخدمنا نماذج MLLMs (مثل GPT-4V) بأسلوب "غير مُعَمَّى" (unblinded) لتنقية البيانات وإعادة تنسيقها، ما أدى إلى إنشاء مجموعة بيانات تُسمى PubMedVision، والتي تضم 1.3 مليون عينة لمهام استجابة الأسئلة الطبية المبنية على الصور (VQA). وتوصلت عمليات التحقق لدينا إلى النتائج التالية: (1) تُظهر PubMedVision قدرة كبيرة على تعزيز القدرات الطبية متعددة الوسائط للنماذج الحالية من MLLMs، مع ملاحظة تحسن ملحوظ في اختبارات الأداء، بما في ذلك مسار الصحة والطب في معيار MMMU؛ (2) تؤكد التحقق اليدوي من قِبل خبراء طبيين والنتائج التجريبية جودة عالية وفوق المتوسط لبياناتنا مقارنة بأساليب بناء البيانات الأخرى. وباستخدام PubMedVision، قمنا بتدريب نموذج MLLM طبي بحجم 34 مليار معلمة يُسمى HuatuoGPT-Vision، الذي أظهر أداءً متفوّقاً في السيناريوهات الطبية متعددة الوسائط مقارنةً بالنماذج المفتوحة المصدر الأخرى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp