النتيجة المُضادة للهوية المُستخلصة: تجاوز المعلم بسرعة في خطوة واحدة

Score Identity Distillation (SiD) هو طريقة لا تعتمد على البيانات (data-free) حققت أداءً متفوقًا (SOTA) في توليد الصور من خلال الاستفادة فقط من نموذج تشتت مُدرَّب مسبقًا، دون الحاجة إلى أي بيانات تدريب. ومع ذلك، فإن الأداء النهائي لها محدود بمدى دقة النموذج المُدرَّب مسبقًا في التقاط "الدرجات الحقيقية للبيانات" (true data scores) في مراحل مختلفة من عملية التشتت. في هذه الورقة، نقدّم SiDA (SiD مع خسارة معاكسة)، والتي لا تُحسِّن جودة التوليد فحسب، بل تُعزز أيضًا كفاءة التوليد من خلال دمج الصور الحقيقية وخسارة معاكسة. تعتمد SiDA على مشغل (encoder) من شبكة التقدير (score network) في المُولِّد كمُميِّز (discriminator)، مما يسمح لها بالتمييز بين الصور الحقيقية والصور المولَّدة بواسطة SiD. يتم تطبيع خسارة المعاكسة حسب الدفعة (batch-normalized) داخل كل وحدة معالجة رسومية (GPU)، ثم تُدمج مع خسارة SiD الأصلية. يُعد هذا التكامل وسيلة فعّالة لدمج "متوسط درجة التزوير" (fakeness) لكل دفعة GPU في خسارة SiD القائمة على البكسل، مما يمكّن SiDA من استخلاص مُولِّد أحادي الخطوة (single-step generator). تتحوّل SiDA بشكل كبير أسرع من سابقتها عند الاستخلاص من الصفر، كما تُحسّن بسرعة أداء النموذج الأصلي أثناء التحسين الدقيق (fine-tuning) من مُولِّد SiD مُستخلَص مسبقًا. تُعد هذه الطريقة المعاكسة أحادية الخطوة معيارًا جديدًا في الأداء التوليدي عند استخلاص نماذج التشتت EDM، حيث تحقق درجات FID قدرها 1.110 على ImageNet 64x64. أما عند استخلاص نماذج EDM2 المدربة على ImageNet 512x512، فإن طريقة SiDA تفوق حتى النموذج المُعلِّم الأكبر، EDM2-XXL، الذي حقق درجة FID قدرها 1.81 باستخدام التوجيه غير المُصنّف (classifier-free guidance - CFG) و63 خطوة توليد. في المقابل، تحقق SiDA درجات FID قدرها 2.156 للحجم XS، و1.669 للحجم S، و1.488 للحجم M، و1.413 للحجم L، و1.379 للحجم XL، و1.366 للحجم XXL، وكلها دون استخدام CFG وفي خطوة توليد واحدة. تُظهر هذه النتائج تحسينات كبيرة على جميع أحجام النماذج. يُمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/mingyuanzhou/SiD/tree/sida.