StyleGAN-T: فتح إمكانات الشبكات التوليدية المنافسة لصنع صور من نصوص بسرعة على نطاق واسع

أظهرت محاكاة الصور من النص تقدماً كبيراً في الآونة الأخيرة بفضل النماذج اللغوية الكبيرة المُدرّبة مسبقاً، وبيانات التدريب على نطاق واسع، بالإضافة إلى ظهور عائلات نماذج قابلة للتوسع مثل نماذج الانتشار (diffusion) والنماذج التكرارية (autoregressive). ومع ذلك، تتطلب النماذج الأفضل أداءً تقييمًا تكراريًا لإنتاج عينة واحدة فقط. في المقابل، تكتفي شبكات التوليد التنافسية (GANs) بمرور واحد أمامي فقط، مما يجعلها أسرع بكثير، لكنها لا تزال تبتعد بشكل كبير عن الحد الأقصى للتقدم في مجال محاكاة الصور من النص على نطاق واسع. يهدف هذا البحث إلى تحديد الخطوات الضرورية لإعادة استعادة القدرة التنافسية. ويُقدّم نموذجنا، StyleGAN-T، حلولاً تلبي المتطلبات الخاصة بمحاكاة الصور من النص على نطاق واسع، مثل السعة الكبيرة، والتدريب المستقر على مجموعات بيانات متنوعة، والتماشي القوي مع النص، والقدرة على التحكم في التوازن بين التباين والتماشي مع النص. ويُظهر StyleGAN-T تحسناً ملحوظاً مقارنة بالنماذج السابقة من نوع GAN، ويتفوق في جودة العينات والسرعة على نماذج الانتشار المُختزلة (distilled diffusion)، التي كانت تمثل الحد الأقصى للتقدم السابق في محاكاة الصور من النص السريعة.