HyperAI
منذ يوم واحد

X-Omni: التعلم بالتعزيز يجعل نماذج توليد الصور ذات التوليد التلقائي المنفصلة رائعة مرة أخرى

Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, et al
X-Omni: التعلم بالتعزيز يجعل نماذج توليد الصور ذات التوليد التلقائي المنفصلة رائعة مرة أخرى
الملخص

بذل العديد من الجهود لتوسيع نموذج "توقّع الرمز التالي" ليشمل المحتوى البصري، بهدف إنشاء نهج موحد لعمليتي إنشاء الصور وفهمها. ومع ذلك، فإن المحاولات الرامية إلى إنشاء الصور باستخدام النمذجة التكرارية مع رموز منفصلة واجهت مشكلات متعددة، مثل انخفاض الجودة البصرية، وتشويه النتائج، وعدم القدرة على الالتزام بتعليمات معقدة عند معالجة التفاصيل الدقيقة. وتُعزى هذه العيوب على الأرجح إلى تراكم الأخطاء أثناء عملية الاستنتاج التكراري، أو فقدان المعلومات الناتج عن عملية التمييز (التفكيك إلى رموز منفصلة). وبسبب هذه التحديات، اتجهت الدراسات الحديثة بشكل متزايد نحو تدريب مشترك لإنشاء الصور باستخدام أهداف التشتت (diffusion)، وتدريب إنشاء اللغة باستخدام أهداف تكرارية، مبتعدة بذلك عن النماذج الموحّدة. في هذا العمل، نُظهر أن التعلم القائم على التغذية الراجعة (reinforcement learning) يمكنه تخفيف الآثار الجانبية بشكل فعّال وتحسين جودة الإنشاء بشكل كبير في منهجية النمذجة التكرارية المنفصلة، مما يمكّن من دمج سلس بين إنشاء الصور وإنشاء اللغة. يتكوّن إطارنا من معالج صور معنوي (semantic image tokenizer)، ونموذج تكراري موحد لمعالجة اللغة والصور، ومعالج تفكيك تشتتي خارج الزمن (offline diffusion decoder) لإنشاء الصور، ويُسمّى X-Omni. ويحقق X-Omni أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art) في مهام إنشاء الصور باستخدام نموذج لغة بحجم 7 مليار معلمة، حيث يُنتج صورًا ذات جودة جمالية عالية، ويُظهر قدرات قوية في اتباع التعليمات وتمثيل النصوص الطويلة.