منذ 6 أشهر

الملخص

بذل العديد من الجهود لتوسيع نموذج "توقّع الرمز التالي" ليشمل المحتوى البصري، بهدف إنشاء نهج موحد لعمليتي إنشاء الصور وفهمها. ومع ذلك، فإن المحاولات الرامية إلى إنشاء الصور باستخدام النمذجة التكرارية مع رموز منفصلة واجهت مشكلات متعددة، مثل انخفاض الجودة البصرية، وتشويه النتائج، وعدم القدرة على الالتزام بتعليمات معقدة عند معالجة التفاصيل الدقيقة. وتُعزى هذه العيوب على الأرجح إلى تراكم الأخطاء أثناء عملية الاستنتاج التكراري، أو فقدان المعلومات الناتج عن عملية التمييز (التفكيك إلى رموز منفصلة). وبسبب هذه التحديات، اتجهت الدراسات الحديثة بشكل متزايد نحو تدريب مشترك لإنشاء الصور باستخدام أهداف التشتت (diffusion)، وتدريب إنشاء اللغة باستخدام أهداف تكرارية، مبتعدة بذلك عن النماذج الموحّدة. في هذا العمل، نُظهر أن التعلم القائم على التغذية الراجعة (reinforcement learning) يمكنه تخفيف الآثار الجانبية بشكل فعّال وتحسين جودة الإنشاء بشكل كبير في منهجية النمذجة التكرارية المنفصلة، مما يمكّن من دمج سلس بين إنشاء الصور وإنشاء اللغة. يتكوّن إطارنا من معالج صور معنوي (semantic image tokenizer)، ونموذج تكراري موحد لمعالجة اللغة والصور، ومعالج تفكيك تشتتي خارج الزمن (offline diffusion decoder) لإنشاء الصور، ويُسمّى X-Omni. ويحقق X-Omni أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art) في مهام إنشاء الصور باستخدام نموذج لغة بحجم 7 مليار معلمة، حيث يُنتج صورًا ذات جودة جمالية عالية، ويُظهر قدرات قوية في اتباع التعليمات وتمثيل النصوص الطويلة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Zigang Geng Yibing Wang Yeyao Ma Chen Li Yongming Rao Shuyang Gu Zhao Zhong et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zigang Geng Yibing Wang Yeyao Ma Chen Li Yongming Rao Shuyang Gu Zhao Zhong et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zigang Geng Yibing Wang Yeyao Ma Chen Li Yongming Rao Shuyang Gu Zhao Zhong et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

X-Omni: التعلم بالتعزيز يجعل نماذج توليد الصور ذات التوليد التلقائي المنفصلة رائعة مرة أخرى

Zigang Geng Yibing Wang Yeyao Ma Chen Li Yongming Rao Shuyang Gu Zhao Zhong et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

X-Omni: التعلم بالتعزيز يجعل نماذج توليد الصور ذات التوليد التلقائي المنفصلة رائعة مرة أخرى

Zigang Geng Yibing Wang Yeyao Ma Chen Li Yongming Rao Shuyang Gu Zhao Zhong et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

X-Omni: التعلم بالتعزيز يجعل نماذج توليد الصور ذات التوليد التلقائي المنفصلة رائعة مرة أخرى

Zigang Geng Yibing Wang Yeyao Ma Chen Li Yongming Rao Shuyang Gu Zhao Zhong et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters