الإنشاء البصري التكراري العشوائي

تقدم هذه الورقة نموذج التوليد العشوائي التلقائي (RAR) للصور، الذي يُعدّ أحدث إنجازات الأداء في مهام توليد الصور مع الحفاظ على التوافق الكامل مع أطر نمذجة اللغة. يتميّز النموذج المقترح ببساطته: خلال عملية تدريب تقليدية ذاتية التوليد باستخدام هدف التنبؤ بالرمز التالي، يتم عشوائيًا إعادة ترتيب التسلسل المدخل – والذي يُعدّ عادةً مرتبًا على الشكل الراسك (raster) – إلى ترتيبات عوامل مختلفة باحتمال r، حيث يبدأ r بقيمة 1 ويتناقص خطياً إلى الصفر خلال عملية التدريب. تتيح هذه الاستراتيجية التدريبية التدريجية (التحوّل التدريجي) للنموذج تعلّم تحسين الاحتمال المتوقع على جميع ترتيبات العوامل، وبالتالي تحسين فعالية قدرة النموذج على نمذجة السياقات الثنائية الاتجاه (bidirectional contexts). وبشكل مهم، يحافظ RAR على سلامة إطار نمذجة التوليد التلقائي، مما يضمن التوافق الكامل مع نماذج معالجة اللغة، مع تحسين كبير في الأداء ضمن مهام توليد الصور. على معيار ImageNet-256، حقق RAR درجة FID قدرها 1.48، متفوقًا ليس فقط على أحدث النماذج ذات التوليد التلقائي السابقة، بل أيضًا على أفضل النماذج القائمة على التشتت (diffusion) والنمذجة المُغطاة (masked transformer). سيتم إتاحة الكود والنماذج على الرابط: https://github.com/bytedance/1d-tokenizer