Command Palette
Search for a command to run...
Guangting Zheng Qinyu Zhao Tao Yang Fei Xiao Zhijie Lin Jie Wu Jiajun Deng Yanyong Zhang Rui Zhu

الملخص
يُعدّ نمذجة الاحتمال الصريح لتوزيع البيانات الخام عنصراً محورياً في مجال التعلم الآلي، حيث ساهمت نماذج التوليد التسلسلي (التي تعتمد على التوليد التسلسلي) في تحقيق نجاحات في التوسع الكمي لنموذجات اللغة الكبيرة. غير أن النمذجة التسلسلية المستمرة للبيانات البصرية الممثلة ببكسلات الصور تواجه صعوبات كبيرة ناتجة عن تسلسلات طويلة جداً ومساحات ذات أبعاد عالية. في هذا البحث، نقدّم FARMER، وهي إطار توليدي متكامل من الطرف إلى الطرف، يوحّد بين نماذج التدفقات المعيارية (Normalizing Flows - NF) ونماذج التوليد التسلسلي (AR)، بهدف تقييم احتمالات قابلة للتحقيق وتمكين توليد صور عالية الجودة مباشرة من البكسلات الخام. يعتمد FARMER على تدفق تسلسلي عكسي قابل للعكس لتحويل الصور إلى تسلسلات مخفية، حيث يتم نمذجة توزيع هذه التسلسلات بشكل ضمني بواسطة نموذج تسلسلي. ولتقليل التكرار والتعقيد الناتج عن النمذجة على مستوى البكسلات، نقترح خطة تقليل الأبعاد ذاتية التدريب، التي تُقسّم قنوات المُخفيات في نموذج التدفقات المعيارية إلى مجموعتين: مجموعات مفيدة ومجموعات متكررة، ما يمكّن من تحسين كفاءة وفعالية النمذجة التسلسلية. علاوة على ذلك، نصمم خطة تبديل مُبسطة (one-step distillation) تُسرّع بشكل كبير من سرعة الاستدلال، ونُقدّم خوارزمية توجيه خالية من الفئات تعتمد على إعادة العينة (resampling-based classifier-free guidance) لتعزيز جودة توليد الصور. تُظهر التجارب الواسعة أداءً مُنافساً مقارنةً بالنماذج التوليدية القائمة على البكسلات، مع الحفاظ على احتمالات دقيقة وتمكّن من التدريب القابل للتوسع.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.