HyperAIHyperAI

Command Palette

Search for a command to run...

DF-GAN: أساس بسيط وفعال لتصنيع الصور من النص

Ming Tao Hao Tang Fei Wu Xiao-Yuan Jing Bing-Kun Bao Changsheng Xu

الملخص

تُعدّ عملية إنشاء صور واقعية عالية الجودة من وصفات نصية مهمة صعبة. تستخدم الشبكات التوليدية المتنافسة الحالية (Generative Adversarial Networks) لتحويل النص إلى صور عادةً معمارية متعددة الطبقات (stacked architecture) كهيكل أساسي، لكنها ما زالت تعاني من ثلاث عيوب رئيسية. أولاً، تُسبب المعمارية المتعددة الطبقات تداخلًا بين المولّدات (generators) الخاصة بمختلف مقاييس الصور. ثانيًا، يميل الأبحاث الحالية إلى تطبيق شبكات إضافية ثابتة في عملية التعلم التنافسي للحفاظ على التماسك المعاني بين النص والصورة، وهو ما يحد من قدرة هذه الشبكات على الإشراف. ثالثًا، يعاني التكامل القائم على الانتباه بين الوسائط (cross-modal attention-based text-image fusion) الذي اعتمدته الدراسات السابقة من قيود على بعض مقاييس الصور الخاصة بسبب التكلفة الحسابية العالية. ولحل هذه المشكلات، نقترح نموذجًا أبسط لكنه أكثر فعالية يُسمى الشبكة التوليدية المتنافسة ذات الدمج العميق (Deep Fusion Generative Adversarial Networks - DF-GAN). وبشكل محدد، نقترح: (أ) هيكلًا أساسيًا جديدًا لتحويل النص إلى صورة في مرحلة واحدة، يُولّد صورًا عالية الدقة مباشرة دون تداخل بين المولّدات المختلفة، (ب) مُميّزًا جديدًا يُسمى "مُميّز مُوجّه بالهدف" (Target-Aware Discriminator)، يتكون من "عقوبة التدرج المُدركة للتوافق" (Matching-Aware Gradient Penalty) و"مخرج أحادي الاتجاه" (One-Way Output)، والذي يعزز التماسك المعاني بين النص والصورة دون الحاجة إلى إدخال شبكات إضافية، (ج) كتلة جديدة للدمج العميق بين النص والصورة، تعمّق عملية الدمج لضمان دمج كامل بين السمات النصية والبصرية. مقارنةً بالأساليب الرائدة حاليًا، يُعدّ النموذج المُقترح DF-GAN أبسط وأكثر كفاءة في إنشاء صور واقعية ومتوافقة مع النص، ويحقق أداءً أفضل على مجموعات بيانات شائعة الاستخدام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp