HyperAIHyperAI
منذ 17 أيام

DF-GAN: أساس بسيط وفعال لتصنيع الصور من النص

Ming Tao, Hao Tang, Fei Wu, Xiao-Yuan Jing, Bing-Kun Bao, Changsheng Xu
DF-GAN: أساس بسيط وفعال لتصنيع الصور من النص
الملخص

تُعدّ عملية إنشاء صور واقعية عالية الجودة من وصفات نصية مهمة صعبة. تستخدم الشبكات التوليدية المتنافسة الحالية (Generative Adversarial Networks) لتحويل النص إلى صور عادةً معمارية متعددة الطبقات (stacked architecture) كهيكل أساسي، لكنها ما زالت تعاني من ثلاث عيوب رئيسية. أولاً، تُسبب المعمارية المتعددة الطبقات تداخلًا بين المولّدات (generators) الخاصة بمختلف مقاييس الصور. ثانيًا، يميل الأبحاث الحالية إلى تطبيق شبكات إضافية ثابتة في عملية التعلم التنافسي للحفاظ على التماسك المعاني بين النص والصورة، وهو ما يحد من قدرة هذه الشبكات على الإشراف. ثالثًا، يعاني التكامل القائم على الانتباه بين الوسائط (cross-modal attention-based text-image fusion) الذي اعتمدته الدراسات السابقة من قيود على بعض مقاييس الصور الخاصة بسبب التكلفة الحسابية العالية. ولحل هذه المشكلات، نقترح نموذجًا أبسط لكنه أكثر فعالية يُسمى الشبكة التوليدية المتنافسة ذات الدمج العميق (Deep Fusion Generative Adversarial Networks - DF-GAN). وبشكل محدد، نقترح: (أ) هيكلًا أساسيًا جديدًا لتحويل النص إلى صورة في مرحلة واحدة، يُولّد صورًا عالية الدقة مباشرة دون تداخل بين المولّدات المختلفة، (ب) مُميّزًا جديدًا يُسمى "مُميّز مُوجّه بالهدف" (Target-Aware Discriminator)، يتكون من "عقوبة التدرج المُدركة للتوافق" (Matching-Aware Gradient Penalty) و"مخرج أحادي الاتجاه" (One-Way Output)، والذي يعزز التماسك المعاني بين النص والصورة دون الحاجة إلى إدخال شبكات إضافية، (ج) كتلة جديدة للدمج العميق بين النص والصورة، تعمّق عملية الدمج لضمان دمج كامل بين السمات النصية والبصرية. مقارنةً بالأساليب الرائدة حاليًا، يُعدّ النموذج المُقترح DF-GAN أبسط وأكثر كفاءة في إنشاء صور واقعية ومتوافقة مع النص، ويحقق أداءً أفضل على مجموعات بيانات شائعة الاستخدام.