Command Palette
Search for a command to run...
MirrorGAN: تعلم إنشاء الصور من النص عن طريق إعادة الوصف
MirrorGAN: تعلم إنشاء الصور من النص عن طريق إعادة الوصف
Tingting Qiao Jing Zhang Duanqing Xu Dacheng Tao
الملخص
توليد صورة من وصف نصي معطى له هدفان: الواقعية البصرية والاتساق الدلالي. رغم التقدم الكبير الذي تحقق في توليد صور ذات جودة عالية وواقعية بصرياً باستخدام شبكات المواجهة التوليدية، فإن ضمان الاتساق الدلالي بين الوصف النصي والمحتوى البصري لا يزال تحدياً كبيراً. في هذا البحث، نعالج هذه المشكلة من خلال اقتراح إطار جديد يحافظ على الاهتمام العالمي والمحلّي والمعنى يُسمى MirrorGAN (مرآة GAN). يستفيد MirrorGAN من فكرة تعلم توليد النص إلى الصورة عن طريق إعادة الوصف ويتألف من ثلاثة وحدات: وحدة تمثيل النص الدلالي (STEM)، ووحدة الاهتمام التعاوني العالمية والمحلية لتوليد الصور المتدرجة (GLAM)، ووحدة إعادة توليد وإ')."تناسق النص الدلالي (STREAM). تقوم STEM بتوليد تمثيلات لكلمات وجمل. تحتوي GLAM على هيكل متدرج لتوليد الصور المستهدفة من نطاقات خشنة إلى دقيقة، مستفيدة من اهتمام الكلمات المحلية والجمل العالمية لتعزيز التنوع والاتساق الدلالي للصور المُنتجة بشكل تدريجي. تعمل STREAM على إعادة توليد الوصف النصي من الصورة المنتجة، والذي يتماشى دلالياً مع الوصف النصي المعطى. أظهرت التجارب الشاملة على مجموعتين عامتين للمعايير أن MirrorGAN يتفوق على الأساليب الرائدة الأخرى في الحالة الفنية."