منذ 6 أشهر

الملخص

تُعدّ عملية إنشاء صور واقعية عالية الجودة من وصفات نصية مهمة صعبة. تستخدم الشبكات التوليدية المتنافسة الحالية (Generative Adversarial Networks) لتحويل النص إلى صور عادةً معمارية متعددة الطبقات (stacked architecture) كهيكل أساسي، لكنها ما زالت تعاني من ثلاث عيوب رئيسية. أولاً، تُسبب المعمارية المتعددة الطبقات تداخلًا بين المولّدات (generators) الخاصة بمختلف مقاييس الصور. ثانيًا، يميل الأبحاث الحالية إلى تطبيق شبكات إضافية ثابتة في عملية التعلم التنافسي للحفاظ على التماسك المعاني بين النص والصورة، وهو ما يحد من قدرة هذه الشبكات على الإشراف. ثالثًا، يعاني التكامل القائم على الانتباه بين الوسائط (cross-modal attention-based text-image fusion) الذي اعتمدته الدراسات السابقة من قيود على بعض مقاييس الصور الخاصة بسبب التكلفة الحسابية العالية. ولحل هذه المشكلات، نقترح نموذجًا أبسط لكنه أكثر فعالية يُسمى الشبكة التوليدية المتنافسة ذات الدمج العميق (Deep Fusion Generative Adversarial Networks - DF-GAN). وبشكل محدد، نقترح: (أ) هيكلًا أساسيًا جديدًا لتحويل النص إلى صورة في مرحلة واحدة، يُولّد صورًا عالية الدقة مباشرة دون تداخل بين المولّدات المختلفة، (ب) مُميّزًا جديدًا يُسمى "مُميّز مُوجّه بالهدف" (Target-Aware Discriminator)، يتكون من "عقوبة التدرج المُدركة للتوافق" (Matching-Aware Gradient Penalty) و"مخرج أحادي الاتجاه" (One-Way Output)، والذي يعزز التماسك المعاني بين النص والصورة دون الحاجة إلى إدخال شبكات إضافية، (ج) كتلة جديدة للدمج العميق بين النص والصورة، تعمّق عملية الدمج لضمان دمج كامل بين السمات النصية والبصرية. مقارنةً بالأساليب الرائدة حاليًا، يُعدّ النموذج المُقترح DF-GAN أبسط وأكثر كفاءة في إنشاء صور واقعية ومتوافقة مع النص، ويحقق أداءً أفضل على مجموعات بيانات شائعة الاستخدام.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Ming Tao Hao Tang Fei Wu Xiao-Yuan Jing Bing-Kun Bao Changsheng Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ming Tao Hao Tang Fei Wu Xiao-Yuan Jing Bing-Kun Bao Changsheng Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ming Tao Hao Tang Fei Wu Xiao-Yuan Jing Bing-Kun Bao Changsheng Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DF-GAN: أساس بسيط وفعال لتصنيع الصور من النص

Ming Tao Hao Tang Fei Wu Xiao-Yuan Jing Bing-Kun Bao Changsheng Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DF-GAN: أساس بسيط وفعال لتصنيع الصور من النص

Ming Tao Hao Tang Fei Wu Xiao-Yuan Jing Bing-Kun Bao Changsheng Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DF-GAN: أساس بسيط وفعال لتصنيع الصور من النص

Ming Tao Hao Tang Fei Wu Xiao-Yuan Jing Bing-Kun Bao Changsheng Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters