HyperAIHyperAI

Command Palette

Search for a command to run...

X-Omni: التعلم بالتعزيز يجعل نماذج توليد الصور ذات التوليد التلقائي المنفصلة رائعة مرة أخرى

Zigang Geng Yibing Wang Yeyao Ma Chen Li Yongming Rao Shuyang Gu Zhao Zhong et al

الملخص

بذل العديد من الجهود لتوسيع نموذج "توقّع الرمز التالي" ليشمل المحتوى البصري، بهدف إنشاء نهج موحد لعمليتي إنشاء الصور وفهمها. ومع ذلك، فإن المحاولات الرامية إلى إنشاء الصور باستخدام النمذجة التكرارية مع رموز منفصلة واجهت مشكلات متعددة، مثل انخفاض الجودة البصرية، وتشويه النتائج، وعدم القدرة على الالتزام بتعليمات معقدة عند معالجة التفاصيل الدقيقة. وتُعزى هذه العيوب على الأرجح إلى تراكم الأخطاء أثناء عملية الاستنتاج التكراري، أو فقدان المعلومات الناتج عن عملية التمييز (التفكيك إلى رموز منفصلة). وبسبب هذه التحديات، اتجهت الدراسات الحديثة بشكل متزايد نحو تدريب مشترك لإنشاء الصور باستخدام أهداف التشتت (diffusion)، وتدريب إنشاء اللغة باستخدام أهداف تكرارية، مبتعدة بذلك عن النماذج الموحّدة. في هذا العمل، نُظهر أن التعلم القائم على التغذية الراجعة (reinforcement learning) يمكنه تخفيف الآثار الجانبية بشكل فعّال وتحسين جودة الإنشاء بشكل كبير في منهجية النمذجة التكرارية المنفصلة، مما يمكّن من دمج سلس بين إنشاء الصور وإنشاء اللغة. يتكوّن إطارنا من معالج صور معنوي (semantic image tokenizer)، ونموذج تكراري موحد لمعالجة اللغة والصور، ومعالج تفكيك تشتتي خارج الزمن (offline diffusion decoder) لإنشاء الصور، ويُسمّى X-Omni. ويحقق X-Omni أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art) في مهام إنشاء الصور باستخدام نموذج لغة بحجم 7 مليار معلمة، حيث يُنتج صورًا ذات جودة جمالية عالية، ويُظهر قدرات قوية في اتباع التعليمات وتمثيل النصوص الطويلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp