HyperAIHyperAI

Command Palette

Search for a command to run...

الإنشاء البصري التكراري العشوائي

Qihang Yu Ju He Xueqing Deng Xiaohui Shen Liang-Chieh Chen

الملخص

تقدم هذه الورقة نموذج التوليد العشوائي التلقائي (RAR) للصور، الذي يُعدّ أحدث إنجازات الأداء في مهام توليد الصور مع الحفاظ على التوافق الكامل مع أطر نمذجة اللغة. يتميّز النموذج المقترح ببساطته: خلال عملية تدريب تقليدية ذاتية التوليد باستخدام هدف التنبؤ بالرمز التالي، يتم عشوائيًا إعادة ترتيب التسلسل المدخل – والذي يُعدّ عادةً مرتبًا على الشكل الراسك (raster) – إلى ترتيبات عوامل مختلفة باحتمال r، حيث يبدأ r بقيمة 1 ويتناقص خطياً إلى الصفر خلال عملية التدريب. تتيح هذه الاستراتيجية التدريبية التدريجية (التحوّل التدريجي) للنموذج تعلّم تحسين الاحتمال المتوقع على جميع ترتيبات العوامل، وبالتالي تحسين فعالية قدرة النموذج على نمذجة السياقات الثنائية الاتجاه (bidirectional contexts). وبشكل مهم، يحافظ RAR على سلامة إطار نمذجة التوليد التلقائي، مما يضمن التوافق الكامل مع نماذج معالجة اللغة، مع تحسين كبير في الأداء ضمن مهام توليد الصور. على معيار ImageNet-256، حقق RAR درجة FID قدرها 1.48، متفوقًا ليس فقط على أحدث النماذج ذات التوليد التلقائي السابقة، بل أيضًا على أفضل النماذج القائمة على التشتت (diffusion) والنمذجة المُغطاة (masked transformer). سيتم إتاحة الكود والنماذج على الرابط: https://github.com/bytedance/1d-tokenizer


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الإنشاء البصري التكراري العشوائي | مستندات | HyperAI