HyperAIHyperAI
منذ 17 أيام

BIGRoC: تعزيز توليد الصور من خلال تصنيفية قوية

Roy Ganz, Michael Elad
BIGRoC: تعزيز توليد الصور من خلال تصنيفية قوية
الملخص

لقد زاد الاهتمام من قبل مجتمع التعلم الآلي تجاه توليد الصور بشكل كبير في السنوات الأخيرة، مع ظهور طيف واسع من النماذج التوليدية العميقة وطرق تدريبها. في هذا العمل، نقترح تقنية عامة لا تعتمد على النموذج (model-agnostic) لتحسين جودة الصور ودقة توزيع الصور المولدة بواسطة أي نموذج توليدي. تعتمد طريقتنا، التي أطلقنا عليها اسم BIGRoC (تعزيز توليد الصور عبر تصنيفية قوية)، على إجراء ما بعد المعالجة باستخدام توجيه تصنيفية قوية، دون الحاجة إلى تدريب إضافي للنموذج التوليدي. نقترح، عند الحصول على صورة مولدة، تحديثها من خلال خطوات تدرج مُشَرَّطة (projected gradient steps) عبر التصنيفية القوية لتحسين تمييزها. نُظهر فعالية خوارزمية ما بعد المعالجة هذه على طرق متعددة لتوليد الصور، ونُظهر تحسينًا كبيرًا من حيث الجوانب الكمية والكيفية على مجموعتي بيانات CIFAR-10 وImageNet. ومن المثير للدهشة أن BIGRoC، رغم كونها أول تقنية لا تعتمد على النموذج ضمن الطرق المُحسّنة، وتتطلب معلومات أقل بكثير، إلا أنها تتفوق على الطرق التنافسية. وبشكل خاص، تُحسّن BIGRoC أفضل نموذج توليد تشتت (diffusion model) على ImageNet بحجم 128×128 بنسبة 14.81%، محققةً درجة FID قدرها 2.53، وبمقدار 7.87% على حجم 256×256، محققةً درجة FID قدرها 3.63. علاوةً على ذلك، أجرينا استبيانًا للرأي، وأظهرت النتائج أن البشر يفضلون بشكل ملحوظ نتائج طريقتنا.