StackGAN: توليد صور واقعية من النص باستخدام شبكات التضاد التوليدية المتراكمة

إنشاء صور عالية الجودة من وصف نصي هو مشكلة معقدة في مجال رؤية الحاسوب ولها العديد من التطبيقات العملية. يمكن للعينات التي تنتجها الطرق الحالية لتحويل النص إلى صورة أن تعكس بصفة عامة معنى الوصف المعطى، ولكنها تفشل في إدراج التفاصيل اللازمة والأجزاء الملونة للأشياء. في هذا البحث، نقترح استخدام شبكات التوليد المتنافسة المتراكمة (StackGAN) لإنشاء صور واقعية بحجم 256x256 مشروطة بالوصف النصي. نقوم بتقسيم المشكلة الصعبة إلى مسائل فرعية أكثر قابلية للإدارة من خلال عملية توضيح وإعادة التحديد. يقوم شبكات التوليد المتنافسة المرحلة الأولى (Stage-I GAN) برسم الشكل الأساسي وألوان الكائن بناءً على الوصف النصي المعطى، مما ينتج عنه صور ذات دقة منخفضة في المرحلة الأولى (Stage-I). أما شبكات التوليد المتنافسة المرحلة الثانية (Stage-II GAN)، فتأخذ نتائج المرحلة الأولى والوصف النصي كمدخلات وتولد صورًا ذات دقة عالية تحتوي على تفاصيل واقعية. وهي قادرة على تصحيح العيوب في نتائج المرحلة الأولى وإضافة تفاصيل مقنعة من خلال عملية إعادة التحديد. لتحسين تنوع الصور المركبة واستقرار تدريب شبكات التوليد المشروطة، قدمنا تقنية جديدة هي تقنية زيادة الشرط (Conditioning Augmentation) التي تشجع على الانسيابية في المنحني الشرطي الخفي. أظهرت التجارب الواسعة والمقارنات مع أفضل التقنيات الحالية على مجموعات البيانات المرجعية أن الطريقة المقترحة حققت تحسينات كبيرة في إنشاء صور واقعية مشروطة بالوصف النصي.