MirrorGAN: تعلم إنشاء الصور من النص عن طريق إعادة الوصف

توليد صورة من وصف نصي معطى له هدفان: الواقعية البصرية والاتساق الدلالي. رغم التقدم الكبير الذي تحقق في توليد صور ذات جودة عالية وواقعية بصرياً باستخدام شبكات المواجهة التوليدية، فإن ضمان الاتساق الدلالي بين الوصف النصي والمحتوى البصري لا يزال تحدياً كبيراً. في هذا البحث، نعالج هذه المشكلة من خلال اقتراح إطار جديد يحافظ على الاهتمام العالمي والمحلّي والمعنى يُسمى MirrorGAN (مرآة GAN). يستفيد MirrorGAN من فكرة تعلم توليد النص إلى الصورة عن طريق إعادة الوصف ويتألف من ثلاثة وحدات: وحدة تمثيل النص الدلالي (STEM)، ووحدة الاهتمام التعاوني العالمية والمحلية لتوليد الصور المتدرجة (GLAM)، ووحدة إعادة توليد وإ')."تناسق النص الدلالي (STREAM). تقوم STEM بتوليد تمثيلات لكلمات وجمل. تحتوي GLAM على هيكل متدرج لتوليد الصور المستهدفة من نطاقات خشنة إلى دقيقة، مستفيدة من اهتمام الكلمات المحلية والجمل العالمية لتعزيز التنوع والاتساق الدلالي للصور المُنتجة بشكل تدريجي. تعمل STREAM على إعادة توليد الوصف النصي من الصورة المنتجة، والذي يتماشى دلالياً مع الوصف النصي المعطى. أظهرت التجارب الشاملة على مجموعتين عامتين للمعايير أن MirrorGAN يتفوق على الأساليب الرائدة الأخرى في الحالة الفنية."