HyperAIHyperAI
منذ 11 أيام

LLaVA-Plus: التعلّم على استخدام الأدوات لبناء وكالات متعددة الوسائط

Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
LLaVA-Plus: التعلّم على استخدام الأدوات لبناء وكالات متعددة الوسائط
الملخص

يُعد LLaVA-Plus مساعدًا متعدد الوسائط عام الاستخدام، ويُوسِّع قدرات النماذج الكبيرة متعددة الوسائط. فهو يحتفظ بمستودع مهارات يضم نماذجًا مُدرَّبة مسبقًا للرؤية ونماذج الرؤية واللغة، ويمكنه تفعيل الأدوات ذات الصلة استجابةً لتدخلات المستخدمين لأداء مهام واقعية. تم تدريب LLaVA-Plus على بيانات تعليم متعددة الوسائط تتطلب اتباع التعليمات، مما يمنحه القدرة على استخدام الأدوات، بما يشمل الفهم البصري، والإنتاج، واسترجاع المعرفة الخارجية، والتركيبات. أظهرت النتائج التجريبية أن LLaVA-Plus يتفوق على LLaVA في القدرات الحالية، كما يُظهر قدرات جديدة. ويتميز هذا النموذج بأنه يُرَكِّز مباشرة على استفسارات الصور ويشارك بشكل نشط طوال جلسات التفاعل البشري-الذكاء الاصطناعي الكاملة، مما يُحسّن بشكل كبير من أداء استخدام الأدوات ويُمكّن من سيناريوهات جديدة.

LLaVA-Plus: التعلّم على استخدام الأدوات لبناء وكالات متعددة الوسائط | أحدث الأوراق البحثية | HyperAI