HyperAIHyperAI
منذ 2 أشهر

MirrorGAN: تعلم إنشاء الصور من النص عن طريق إعادة الوصف

Tingting Qiao; Jing Zhang; Duanqing Xu; Dacheng Tao
MirrorGAN: تعلم إنشاء الصور من النص عن طريق إعادة الوصف
الملخص

توليد صورة من وصف نصي معطى له هدفان: الواقعية البصرية والاتساق الدلالي. رغم التقدم الكبير الذي تحقق في توليد صور ذات جودة عالية وواقعية بصرياً باستخدام شبكات المواجهة التوليدية، فإن ضمان الاتساق الدلالي بين الوصف النصي والمحتوى البصري لا يزال تحدياً كبيراً. في هذا البحث، نعالج هذه المشكلة من خلال اقتراح إطار جديد يحافظ على الاهتمام العالمي والمحلّي والمعنى يُسمى MirrorGAN (مرآة GAN). يستفيد MirrorGAN من فكرة تعلم توليد النص إلى الصورة عن طريق إعادة الوصف ويتألف من ثلاثة وحدات: وحدة تمثيل النص الدلالي (STEM)، ووحدة الاهتمام التعاوني العالمية والمحلية لتوليد الصور المتدرجة (GLAM)، ووحدة إعادة توليد وإ')."تناسق النص الدلالي (STREAM). تقوم STEM بتوليد تمثيلات لكلمات وجمل. تحتوي GLAM على هيكل متدرج لتوليد الصور المستهدفة من نطاقات خشنة إلى دقيقة، مستفيدة من اهتمام الكلمات المحلية والجمل العالمية لتعزيز التنوع والاتساق الدلالي للصور المُنتجة بشكل تدريجي. تعمل STREAM على إعادة توليد الوصف النصي من الصورة المنتجة، والذي يتماشى دلالياً مع الوصف النصي المعطى. أظهرت التجارب الشاملة على مجموعتين عامتين للمعايير أن MirrorGAN يتفوق على الأساليب الرائدة الأخرى في الحالة الفنية."