AttnGAN: توليد صور مفصل من النص باستخدام شبكات الت generative adversarial الانتباهية

في هذا البحث، نقترح شبكة توليدية معاكسة انتباهية (AttnGAN) تسمح بالتحسين المتعدد المراحل بقيادة الانتباه لعملية التوليد النصي الدقيق للصور. من خلال استخدام شبكة توليدية انتباهية جديدة، يمكن للـ AttnGAN إنشاء تفاصيل دقيقة في مختلف المناطق الفرعية للصورة عن طريق التركيز على الكلمات ذات الصلة في الوصف اللغوي الطبيعي. بالإضافة إلى ذلك، تم اقتراح نموذج تشابه متعدد الوسائط انتباهي عميق لحساب خسارة مطابقة دقيقة بين الصورة والنص لتدريب المولد. أظهرت الشبكة الانتباهية التوليدية المقترحة (AttnGAN) تفوقًا كبيرًا على أفضل التقنيات السابقة، حيث رفعت أفضل درجة تم الإبلاغ عنها في اختبار inception بنسبة 14.14٪ على مجموعة بيانات CUB وبنسبة 170.25٪ على مجموعة البيانات الأكثر تحديًا COCO. كما تم إجراء تحليل مفصل من خلال تصوير طبقات الانتباه في الـ AttnGAN. يُظهر هذا التحليل لأول مرة أن الشبكة التوليدية المعاكسة الانتباهية متعددة الطبقات قادرة على اختيار الشرط بشكل آلي على مستوى الكلمة لتوليد أجزاء مختلفة من الصورة.