الملخص

بينما يهدف التوليد الواعي بالتفكير إلى تحسين الأداء في المهام المعقدة، نحدد نمطًا حرجة للخطأ حيث يمكن أن يؤدي النهج التسلسلي المتتابع القائم على التوليد التلقائي (autoregressive) الحالي إلى تدهور الأداء بشكل مفارِق بسبب انتشار الأخطاء. ولتحليل هذه المشكلة بشكل منهجي، نقترح بِنْشِنْ بارابِنْتش (ParaBench)، معيارًا جديدًا مصممًا لتقييم كلا الوسائط الناتجة: النصية والصورية. تُظهر تحليلاتنا باستخدام بارابِنْتش أن هذا التدهور في الأداء مرتبط بشكل قوي بضعف التوافق بين عملية الاستدلال المولدة والصورة النهائية. ولحل هذه المشكلة، نقترح إطارًا متعدد الوسائط متوازيًا يستند إلى التشتت (diffusion)، يُسمى MMaDA-Parallel، والذي يتيح تفاعلًا مستمرًا وثنائي الاتجاه بين النص والصورة طوال مسار التقليل من الضوضاء بالكامل. يتم تدريب MMaDA-Parallel باستخدام التدريب المراقب المُعدّل (supervised fine-tuning)، ثم يتم تحسينه بشكل إضافي من خلال التعلم التعزيزي المتوازي (Parallel Reinforcement Learning - ParaRL)، وهي استراتيجية جديدة تُطبّق مكافآت دلالية على طول المسار لضمان الاتساق بين الوسائط المختلفة. تؤكد التجارب أن نموذجنا يُحسّن بشكل كبير من التوافق بين الوسائط والاتساق الدلالي، محقِّقًا تحسنًا بنسبة 6.9% في معيار "التوافق في المخرجات" (Output Alignment) على بارابِنْتش مقارنة بالنموذج المتقدم الحالي، باجل (Bagel)، مما يُرسّخ منهجًا أكثر متانة للتركيب الصوري الواعي بالتفكير. تم إتاحة الكود المصدر لدينا عبر الرابط التالي: https://github.com/tyfeld/MMaDA-Parallel

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MMaDA-Parallel: نماذج لغوية تشتتية كبيرة متعددة الوسائط للتحرير والتكوين الواعي بالتفكير

Ye Tian Ling Yang Jiongfan Yang Anran Wang Yu Tian Jiani Zheng Haochen Wang Zhiyang Teng Zhuochen Wang Yinjie Wang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MMaDA-Parallel: نماذج لغوية تشتتية كبيرة متعددة الوسائط للتحرير والتكوين الواعي بالتفكير

Ye Tian Ling Yang Jiongfan Yang Anran Wang Yu Tian Jiani Zheng Haochen Wang Zhiyang Teng Zhuochen Wang Yinjie Wang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MMaDA-Parallel: نماذج لغوية تشتتية كبيرة متعددة الوسائط للتحرير والتكوين الواعي بالتفكير

Ye Tian Ling Yang Jiongfan Yang Anran Wang Yu Tian Jiani Zheng Haochen Wang Zhiyang Teng Zhuochen Wang Yinjie Wang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ye Tian Ling Yang Jiongfan Yang Anran Wang Yu Tian Jiani Zheng Haochen Wang Zhiyang Teng Zhuochen Wang Yinjie Wang

Ye Tian Ling Yang Jiongfan Yang Anran Wang Yu Tian Jiani Zheng Haochen Wang Zhiyang Teng Zhuochen Wang Yinjie Wang

Ye Tian Ling Yang Jiongfan Yang Anran Wang Yu Tian Jiani Zheng Haochen Wang Zhiyang Teng Zhuochen Wang Yinjie Wang