HyperAIHyperAI

Command Palette

Search for a command to run...

AttnGAN: توليد صور مفصل من النص باستخدام شبكات الت generative adversarial الانتباهية

Tao Xu∗1, Pengchuan Zhang2, Qiuyuan Huang2, Han Zhang3, Zhe Gan4, Xiaolei Huang1, Xiaodong He2

الملخص

في هذا البحث، نقترح شبكة توليدية معاكسة انتباهية (AttnGAN) تسمح بالتحسين المتعدد المراحل بقيادة الانتباه لعملية التوليد النصي الدقيق للصور. من خلال استخدام شبكة توليدية انتباهية جديدة، يمكن للـ AttnGAN إنشاء تفاصيل دقيقة في مختلف المناطق الفرعية للصورة عن طريق التركيز على الكلمات ذات الصلة في الوصف اللغوي الطبيعي. بالإضافة إلى ذلك، تم اقتراح نموذج تشابه متعدد الوسائط انتباهي عميق لحساب خسارة مطابقة دقيقة بين الصورة والنص لتدريب المولد. أظهرت الشبكة الانتباهية التوليدية المقترحة (AttnGAN) تفوقًا كبيرًا على أفضل التقنيات السابقة، حيث رفعت أفضل درجة تم الإبلاغ عنها في اختبار inception بنسبة 14.14٪ على مجموعة بيانات CUB وبنسبة 170.25٪ على مجموعة البيانات الأكثر تحديًا COCO. كما تم إجراء تحليل مفصل من خلال تصوير طبقات الانتباه في الـ AttnGAN. يُظهر هذا التحليل لأول مرة أن الشبكة التوليدية المعاكسة الانتباهية متعددة الطبقات قادرة على اختيار الشرط بشكل آلي على مستوى الكلمة لتوليد أجزاء مختلفة من الصورة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp