HyperAIHyperAI
منذ 16 أيام

mPLUG-Owl: التجزئة تعزز نماذج اللغة الكبيرة بالمتعددة الوسائط

Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
mPLUG-Owl: التجزئة تعزز نماذج اللغة الكبيرة بالمتعددة الوسائط
الملخص

أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات مذهلة في المهام المفتوحة بدون تدريب مسبق (zero-shot)، في حين استكشفت الأبحاث الحديثة أيضًا استخدام النماذج اللغوية الكبيرة في التوليد متعدد الوسائط. في هذه الدراسة، نقدّم mPLUG-Owl، وهو نموذج تدريبي جديد يزوّد النماذج اللغوية الكبيرة بقدرات متعددة الوسائط من خلال تعلّم منفصل يشمل النموذج الأساسي للغة، ووحدة معرفة بصرية، ووحدة استخلاص بصري. يتيح هذا النهج دعمًا متعدد الوسائط ويعزز القدرات المفردة والمتعددة الوسائط من خلال التعاون بين الوسائط. يتضمن نموذج التدريب الخاص بـ mPLUG-Owl منهجًا مزدوج المرحلة لتوحيد الصور والنصوص، حيث يُدرّس النموذج المعرفي البصري بمساعدة النموذج اللغوي الكبيرة مع الحفاظ على قدرات التوليد أو حتى تحسينها. في المرحلة الأولى، يتم تدريب وحدة المعرفة البصرية ووحدة الاستخلاص باستخدام نموذج لغوي ثابت (frozen) لتوحيد الصور والنصوص. وفي المرحلة الثانية، تُستخدم مجموعات بيانات مُعلَّمة فقط باللغة ومجموعات بيانات متعددة الوسائط لضبط النموذج المُعدّل بمرتبة منخفضة (LoRA) على النموذج اللغوي الكبيرة ووحدة الاستخلاص، مع تثبيت وحدة المعرفة البصرية. وقد بنينا بعناية مجموعة تقييم تعليمية مرتبطة بالصور تُدعى OwlEval. تُظهر النتائج التجريبية أن نموذجنا يتفوّق على النماذج متعددة الوسائط الحالية، مما يُظهر قدرات متميزة لفهم التعليمات والصور، والقدرة على الحوار متعدد الدورات، ومهارات الاستدلال المعرفي. بالإضافة إلى ذلك، لاحظنا بعض القدرات غير المتوقعة والمثيرة، مثل الترابط بين صور متعددة وفهم النصوص في المشاهد، ما يجعل من الممكن استخدامه في سيناريوهات واقعية أكثر تعقيدًا، مثل فهم المستندات التي تعتمد فقط على الرؤية. يتوفر الكود، والنماذج المُدرّبة مسبقًا، والنماذج المُعدّلة بالتعليمات، ومجموعة التقييم على الرابط التالي: https://github.com/X-PLUG/mPLUG-Owl. كما يتوفر عرض تفاعلي مباشر عبر الإنترنت على: https://www.modelscope.cn/studios/damo/mPLUG-Owl.

mPLUG-Owl: التجزئة تعزز نماذج اللغة الكبيرة بالمتعددة الوسائط | أحدث الأوراق البحثية | HyperAI