توضيح فضاء التصميم للتفجير الموجه بال Classifier

تُعد التوجيهات في توليد التباين الشرطي أمرًا بالغ الأهمية من حيث جودة العينات وقابلية التحكم. ومع ذلك، تبقى النماذج الحالية للتوجيه غير مرضية. من ناحية، تعتمد الطرق الشائعة مثل التوجيه بواسطة التصنيف (classifier guidance) والتوجيه بدون تصنيف (classifier-free guidance) على تدريب إضافي باستخدام بيانات مُصَنَّفة، وهي عملية تستغرق وقتًا طويلاً ولا تتمكن من التكيف مع ظروف جديدة. ومن ناحية أخرى، تُعد الطرق الخالية من التدريب مثل التوجيه العام (universal guidance) أكثر مرونة، لكنها لم تُظهر حتى الآن أداءً مماثلًا للطرق التقليدية. في هذا العمل، من خلال دراسة شاملة لفضاء التصميم، نُظهر أنه من الممكن تحقيق تحسينات كبيرة في الأداء مقارنة بالطرق الحالية للتوجيه، وذلك من خلال استغلال تصنيفات جاهزة (off-the-shelf classifiers) بطريقة خالية من التدريب، مع الاستفادة من أفضل ما تقدمه كلتا الطريقتين. وباعتماد المعايرة (calibration) كمبدأ توجيه عام، نقترح عدة تقنيات ما قبل التجهيز (pre-conditioning) لاستغلال أفضل لتصنيفات جاهزة مُدرَّبة مسبقًا في توجيه عمليات التوليد التبايني. وقد أثبتت التجارب الواسعة على ImageNet فعالية الطريقة المقترحة، حيث تمكّن النماذج التباينية الرائدة (DDPM، EDM، DiT) من تحسين الأداء بنسبة تصل إلى 20٪ باستخدام تصنيفات جاهزة، وبتكلفة حسابية إضافية ضئيلة جدًا. وباتت التصنيفات المُدرَّبة مسبقًا متاحة على نطاق واسع، فإن النهج المقترح يتمتع بإمكانات كبيرة، ويمكن تعميمه بسهولة على مهام التوليد من النص إلى الصورة. يمكن الوصول إلى الشيفرة المصدرية عبر الرابط التالي: https://github.com/AlexMaOLS/EluCD/tree/main.