HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين المحاذاة من خلال إعادة البناء يعزز النماذج المتعددة الوسائط الموحدة

Ji Xie Trevor Darrell Luke Zettlemoyer XuDong Wang

الملخص

تحوّل النماذج متعددة الوسائط الموحّدة (UMMs) بين الفهم البصري والإنتاج ضمن بنية واحدة. ومع ذلك، تعتمد التدريبات التقليدية على أزواج صور-نصوص (أو تسلسلات)، والتي غالبًا ما تكون التعليقات المرافقة لها نادرة وتفتقر إلى التفاصيل البصرية الدقيقة — حتى عند استخدام مئات الكلمات لوصف صورة بسيطة. نقدّم طريقة "التوافق بالإعادة التكوينية" (RecA)، وهي طريقة فعّالة من حيث الموارد للتدريب اللاحق، تعتمد على تضمينات مُشفرة من نموذج فهم البصريات كـ"أوامر نصية كثيفة"، مما يوفر إشرافًا غنيًا دون الحاجة إلى تعليقات. بشكل محدد، تُحدّد RecA نموذج UMM باستخدام تضميناته الخاصة للفهم البصري، ثم تُحسّن النموذج لإعادة بناء الصورة الأصلية باستخدام خسارة إعادة التكوين ذاتية الإشراف، وبالتالي إعادة ترتيب التزامن بين الفهم والإنتاج. وعلى الرغم من بساطتها، فإن RecA قابلة للتطبيق على نطاق واسع: فهي تحسّن بشكل متسق أداء التوليد والتعديل عبر نماذج UMMs ذاتية التوليد (autoregressive)، ونماذج UMMs ذاتية التوليد المُغطاة (masked-autoregressive)، والنماذج القائمة على التفتيت (diffusion-based). وباستخدام 27 ساعة من وحدات معالجة الرسوميات (GPU) فقط، تُحسّن RecA بشكل ملحوظ أداء توليد الصور على معيار GenEval (من 0.73 إلى 0.90) وعلى معيار DPGBench (من 80.93 إلى 88.15)، كما تُعزز من أداء اختبارات التعديل (من 3.38 إلى 3.75 في ImgEdit، ومن 6.94 إلى 7.25 في GEdit). وبشكل لافت، تتفوّق RecA على نماذج مفتوحة المصدر الأكبر حجمًا، وتنطبق بشكل واسع على متنوعة من هياكل نماذج UMMs، ما يجعلها استراتيجية فعّالة وعامة للتوافق بعد التدريب في نماذج UMMs.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين المحاذاة من خلال إعادة البناء يعزز النماذج المتعددة الوسائط الموحدة | مستندات | HyperAI