HyperAIHyperAI
منذ 17 أيام

توجيه نموذج الانتشار باستخدام نسخة سيئة منه ذاته

Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
توجيه نموذج الانتشار باستخدام نسخة سيئة منه ذاته
الملخص

المحاور الأساسية التي تهم نماذج التوليد الصوري القائمة على الانتشار هي جودة الصورة، وكمية التباين في النتائج، ودرجة مطابقة النتائج لشرط معين، مثل Etiquette فئة أو مطالبة نصية. تستخدم الطريقة الشائعة المعروفة بـ "التوجيه دون تصنيف" نموذجًا غير مشروط لتوجيه نموذج مشروط، مما يؤدي إلى تحسين مطابقة المطالبة ورفع جودة الصور في آن واحد، ولكن على حساب تقليل التباين. تبدو هذه التأثيرات متشابكة بشكل جوهري، وبالتالي صعبة التحكم بها. ونلاحظ بشكل مفاجئ أنه من الممكن تحقيق تحكم منفصل في جودة الصورة دون التضحية بمستوى التباين، وذلك من خلال توجيه عملية التوليد باستخدام نسخة أصغر وأقل تدريبًا من النموذج نفسه، بدلاً من استخدام نموذج غير مشروط. يؤدي هذا إلى تحسينات كبيرة في توليد صور ImageNet، حيث سجلت قيم FID القياسية 1.01 للصورة بحجم 64x64 و1.25 للصورة بحجم 512x512، باستخدام شبكات متاحة للعامة. علاوة على ذلك، فإن هذه الطريقة تنطبق أيضًا على النماذج غير المشروطة للانتشار، مما يحسن جودتها بشكل كبير.