HyperAIHyperAI

Command Palette

Search for a command to run...

MirrorGAN: تعلم إنشاء الصور من النص عن طريق إعادة الوصف

Tingting Qiao Jing Zhang Duanqing Xu Dacheng Tao

الملخص

توليد صورة من وصف نصي معطى له هدفان: الواقعية البصرية والاتساق الدلالي. رغم التقدم الكبير الذي تحقق في توليد صور ذات جودة عالية وواقعية بصرياً باستخدام شبكات المواجهة التوليدية، فإن ضمان الاتساق الدلالي بين الوصف النصي والمحتوى البصري لا يزال تحدياً كبيراً. في هذا البحث، نعالج هذه المشكلة من خلال اقتراح إطار جديد يحافظ على الاهتمام العالمي والمحلّي والمعنى يُسمى MirrorGAN (مرآة GAN). يستفيد MirrorGAN من فكرة تعلم توليد النص إلى الصورة عن طريق إعادة الوصف ويتألف من ثلاثة وحدات: وحدة تمثيل النص الدلالي (STEM)، ووحدة الاهتمام التعاوني العالمية والمحلية لتوليد الصور المتدرجة (GLAM)، ووحدة إعادة توليد وإ')."تناسق النص الدلالي (STREAM). تقوم STEM بتوليد تمثيلات لكلمات وجمل. تحتوي GLAM على هيكل متدرج لتوليد الصور المستهدفة من نطاقات خشنة إلى دقيقة، مستفيدة من اهتمام الكلمات المحلية والجمل العالمية لتعزيز التنوع والاتساق الدلالي للصور المُنتجة بشكل تدريجي. تعمل STREAM على إعادة توليد الوصف النصي من الصورة المنتجة، والذي يتماشى دلالياً مع الوصف النصي المعطى. أظهرت التجارب الشاملة على مجموعتين عامتين للمعايير أن MirrorGAN يتفوق على الأساليب الرائدة الأخرى في الحالة الفنية."


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp