HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG-Owl: التجزئة تعزز نماذج اللغة الكبيرة بالمتعددة الوسائط

الملخص

أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات مذهلة في المهام المفتوحة بدون تدريب مسبق (zero-shot)، في حين استكشفت الأبحاث الحديثة أيضًا استخدام النماذج اللغوية الكبيرة في التوليد متعدد الوسائط. في هذه الدراسة، نقدّم mPLUG-Owl، وهو نموذج تدريبي جديد يزوّد النماذج اللغوية الكبيرة بقدرات متعددة الوسائط من خلال تعلّم منفصل يشمل النموذج الأساسي للغة، ووحدة معرفة بصرية، ووحدة استخلاص بصري. يتيح هذا النهج دعمًا متعدد الوسائط ويعزز القدرات المفردة والمتعددة الوسائط من خلال التعاون بين الوسائط. يتضمن نموذج التدريب الخاص بـ mPLUG-Owl منهجًا مزدوج المرحلة لتوحيد الصور والنصوص، حيث يُدرّس النموذج المعرفي البصري بمساعدة النموذج اللغوي الكبيرة مع الحفاظ على قدرات التوليد أو حتى تحسينها. في المرحلة الأولى، يتم تدريب وحدة المعرفة البصرية ووحدة الاستخلاص باستخدام نموذج لغوي ثابت (frozen) لتوحيد الصور والنصوص. وفي المرحلة الثانية، تُستخدم مجموعات بيانات مُعلَّمة فقط باللغة ومجموعات بيانات متعددة الوسائط لضبط النموذج المُعدّل بمرتبة منخفضة (LoRA) على النموذج اللغوي الكبيرة ووحدة الاستخلاص، مع تثبيت وحدة المعرفة البصرية. وقد بنينا بعناية مجموعة تقييم تعليمية مرتبطة بالصور تُدعى OwlEval. تُظهر النتائج التجريبية أن نموذجنا يتفوّق على النماذج متعددة الوسائط الحالية، مما يُظهر قدرات متميزة لفهم التعليمات والصور، والقدرة على الحوار متعدد الدورات، ومهارات الاستدلال المعرفي. بالإضافة إلى ذلك، لاحظنا بعض القدرات غير المتوقعة والمثيرة، مثل الترابط بين صور متعددة وفهم النصوص في المشاهد، ما يجعل من الممكن استخدامه في سيناريوهات واقعية أكثر تعقيدًا، مثل فهم المستندات التي تعتمد فقط على الرؤية. يتوفر الكود، والنماذج المُدرّبة مسبقًا، والنماذج المُعدّلة بالتعليمات، ومجموعة التقييم على الرابط التالي: https://github.com/X-PLUG/mPLUG-Owl. كما يتوفر عرض تفاعلي مباشر عبر الإنترنت على: https://www.modelscope.cn/studios/damo/mPLUG-Owl.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp