DM-GAN: شبكات التعلم التلقائي المولدة بذاكرة ديناميكية لتحويل النص إلى صورة

في هذه الورقة، نركز على إنشاء صور واقعية من وصف النصوص. تولد الأساليب الحالية في البداية صورة أولية ذات شكل وألوان خشنة، ثم يتم تحسين الصورة الأولية إلى صورة بدقة عالية. تعاني معظم طرق التركيب النصي إلى الصور الحالية من مشكلتين رئيسيتين. (1) تعتمد هذه الأساليب بشكل كبير على جودة الصور الأولية. إذا لم يتم توليد الصورة الأولية بشكل جيد، فإن العمليات اللاحقة لن تستطيع تحسين جودة الصورة بشكل مرضٍ. (2) يساهم كل كلمة بمستوى مختلف من الأهمية عند وصف محتويات الصور المختلفة، ومع ذلك، يتم استخدام تمثيل النص الثابت في عمليات تحسين الصور الحالية. في هذه الورقة، نقترح شبكة التوليد المواجهة ذاكرة الديناميكية (DM-GAN) لإنشاء صور عالية الجودة. يُدخل الطريقة المقترحة وحدة ذاكرة ديناميكية لتحسين محتويات الصور الضبابية عندما لا يتم توليد الصور الأولية بشكل جيد. تم تصميم بوابة كتابة الذاكرة لاختيار المعلومات النصية الهامة بناءً على محتوى الصورة الأولي، مما يمكن طريقتنا من إنشاء صور دقيقة من الوصف النصي. كما نستفيد من بوابة الاستجابة لدمج المعلومات التي تم قراءتها من الذواكر وميزات الصورة بطريقة تكيفية. قمنا بتقييم نموذج DM-GAN على مجموعة بيانات Caltech-UCSD Birds 200 وعلى مجموعة بيانات Microsoft Common Objects in Context (COCO). أظهرت نتائج التجارب أن نموذج DM-GAN الخاص بنا يؤدي بشكل أفضل مقابل الأساليب الرائدة حاليًا في هذا المجال.