HyperAIHyperAI
منذ 2 أشهر

LLaVA-مِد: تدريب مساعد كبير للغة والرؤية في مجال الطب الحيوي خلال يوم واحد

Chunyuan Li; Cliff Wong; Sheng Zhang; Naoto Usuyama; Haotian Liu; Jianwei Yang; Tristan Naumann; Hoifung Poon; Jianfeng Gao
LLaVA-مِد: تدريب مساعد كبير للغة والرؤية في مجال الطب الحيوي خلال يوم واحد
الملخص

أظهرت الذكاء الاصطناعي التوليدي التفاعلي وعودًا ملحوظة في تمكين الممارسين البيوطبيين، ولكن الدراسات الحالية تركز على النص الأحادي الوسائط. شهد الذكاء الاصطناعي التفاعلي متعدد الوسائط تقدمًا سريعًا من خلال الاستفادة من مليارات أزواج الصور والنصوص المتاحة على الإنترنت العام، لكن هذه النماذج اللغوية المرئية العامة لا تزال تعاني من نقص في التعقيد عند فهم والتواصل حول الصور البيوطبية. في هذا البحث، نقترح طريقة كفاءتها عالية من حيث التكلفة لتدريب مساعد تفاعلي للغة والرؤية يمكنه الإجابة على أسئلة بحثية مفتوحة حول الصور البيوطبية. الفكرة الرئيسية هي الاستفادة من مجموعة بيانات كبيرة ومتنوعة تحتوي على رسوم بيوطبية مع عناوينها المستخرجة من PubMed Central، استخدام GPT-4 لإنشاء بيانات تعليمية موجهة بشكل مفتوح من العناوين، ثم ضبط نموذج لغوي مرئي عام كبير باستخدام طريقة جديدة للتعلم المنظم. تحديدًا، يتعلم النموذج أولاً كيفية تنسيق المفردات البيوطبية باستخدام أزواج الرسوم والعناوين كما هي، ثم يتعلم كيفية إتقان الدلالات التفاعلية المفتوحة باستخدام البيانات التعليمية الموجهة التي تم إنشاؤها بواسطة GPT-4، مما يحاكي تقريبًا كيفية اكتساب الشخص العادي للمعرفة البيوطبية تدريجيًا. هذا يمكّننا من تدريب مساعد اللغة والرؤية الكبير لعلم الأحياء الطبي (LLaVA-Med) في أقل من 15 ساعة (باستخدام ثمانية أجهزة A100). يظهر LLaVA-Med قدرة تفاعلية متعددة الوسائط ممتازة ويمكنه اتباع تعليمات مفتوحة لمساعدة الباحثين في الاستفسار عن صورة بيوطبية. على ثلاثة مجموعات بيانات قياسية للأسئلة الإجابية البصرية البيوطبية، حقق LLaVA-Med نتائج أفضل من أفضل الأساليب السابقة الخاضعة للإشراف في بعض المقاييس. لتسهيل البحث البيوطبي متعدد الوسائط، سنقوم بإصدار بياناتنا التعليمية الموجهة ونموذج LLaVA-Med.

LLaVA-مِد: تدريب مساعد كبير للغة والرؤية في مجال الطب الحيوي خلال يوم واحد | أحدث الأوراق البحثية | HyperAI