HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

تحسين المحاذاة من خلال إعادة البناء يعزز النماذج المتعددة الوسائط الموحدة

Ji Xie Trevor Darrell Luke Zettlemoyer XuDong Wang

تحسين المحاذاة من خلال إعادة البناء يعزز النماذج المتعددة الوسائط الموحدة

الملخص

تحوّل النماذج متعددة الوسائط الموحّدة (UMMs) بين الفهم البصري والإنتاج ضمن بنية واحدة. ومع ذلك، تعتمد التدريبات التقليدية على أزواج صور-نصوص (أو تسلسلات)، والتي غالبًا ما تكون التعليقات المرافقة لها نادرة وتفتقر إلى التفاصيل البصرية الدقيقة — حتى عند استخدام مئات الكلمات لوصف صورة بسيطة. نقدّم طريقة "التوافق بالإعادة التكوينية" (RecA)، وهي طريقة فعّالة من حيث الموارد للتدريب اللاحق، تعتمد على تضمينات مُشفرة من نموذج فهم البصريات كـ"أوامر نصية كثيفة"، مما يوفر إشرافًا غنيًا دون الحاجة إلى تعليقات. بشكل محدد، تُحدّد RecA نموذج UMM باستخدام تضميناته الخاصة للفهم البصري، ثم تُحسّن النموذج لإعادة بناء الصورة الأصلية باستخدام خسارة إعادة التكوين ذاتية الإشراف، وبالتالي إعادة ترتيب التزامن بين الفهم والإنتاج. وعلى الرغم من بساطتها، فإن RecA قابلة للتطبيق على نطاق واسع: فهي تحسّن بشكل متسق أداء التوليد والتعديل عبر نماذج UMMs ذاتية التوليد (autoregressive)، ونماذج UMMs ذاتية التوليد المُغطاة (masked-autoregressive)، والنماذج القائمة على التفتيت (diffusion-based). وباستخدام 27 ساعة من وحدات معالجة الرسوميات (GPU) فقط، تُحسّن RecA بشكل ملحوظ أداء توليد الصور على معيار GenEval (من 0.73 إلى 0.90) وعلى معيار DPGBench (من 80.93 إلى 88.15)، كما تُعزز من أداء اختبارات التعديل (من 3.38 إلى 3.75 في ImgEdit، ومن 6.94 إلى 7.25 في GEdit). وبشكل لافت، تتفوّق RecA على نماذج مفتوحة المصدر الأكبر حجمًا، وتنطبق بشكل واسع على متنوعة من هياكل نماذج UMMs، ما يجعلها استراتيجية فعّالة وعامة للتوافق بعد التدريب في نماذج UMMs.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين المحاذاة من خلال إعادة البناء يعزز النماذج المتعددة الوسائط الموحدة | الأوراق البحثية | HyperAI