هل يُسهم الفهم في التوليد داخل النماذج المتعددة الوسائط الموحّدة؟ من التحليل إلى المسار المستقبلي
Yuwei Niu Weiyang Jin Jiaqi Liao Chaoran Feng Peng Jin Bin Lin Zongjian Li Bin Zhu Weihao Yu Li Yuan

الملخص
شهدت السنوات الأخيرة تقدماً ملحوظاً في نماذج التعددية الموحدة، ومع ذلك تظل هناك مسألة جوهرية معلقة: هل يُسهم الفهم فعلاً في التوليد؟ وللتحقيق في هذا السؤال، نقدّم "UniSandbox"، وهو إطار تقييم منفصل مزود ببيانات مصطنعة مُحكَمة لتجنب تسرب البيانات وتمكين تحليل دقيق. تُظهر نتائجنا وجود فجوة كبيرة بين الفهم والتوليد، والتي تتجلى بشكل رئيسي في بُعدين رئيسيين: التوليد الاستنتاجي والنقل المعرفي. وبشكل خاص، في مهام التوليد الاستنتاجي، نلاحظ أن تضمين سلسلة التفكير الصريحة (Chain-of-Thought - CoT) في وحدة الفهم يُسهم بشكل فعّال في تضييق هذه الفجوة، كما نُظهر لاحقاً أن نهج التدريب الذاتي يمكنه بنجاح ترسيخ هذه القدرة، مما يمكّن من إجراء استنتاجات ضمنية أثناء التوليد. علاوة على ذلك، في مهام نقل المعرفة، نجد أن CoT يُسهم في عملية التوليد من خلال مساعدة استرجاع المعرفة المُكتسبة حديثاً، ونكتشف أيضاً أن المعمارية القائمة على الاستفسار (query-based) تمتلك خصائص مُتَخَفِّية تشبه CoT تؤثر على هذا النقل. يوفر UniSandbox رؤى أولية لتصميم هياكل موحدة مستقبلية واستراتيجيات تدريب فعّالة تُسهم حقاً في سد الفجوة بين الفهم والتوليد. يمكن الوصول إلى الكود والبيانات عبر الرابط: https://github.com/PKU-YuanGroup/UniSandBox
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.