HyperAIHyperAI

Command Palette

Search for a command to run...

Swinv2-Imagen: نماذج توليد الصور من النص تعتمد على التحويلات الهرمية البصرية المبنية على LLM

Ruijun Li Weihua Li Yi Yang Hanyu Wei Jianhua Jiang Quan Bai

الملخص

في الآونة الأخيرة، أثبتت نماذج التبديد (diffusion models) أداءً متميزًا في مهام تحويل النص إلى صورة في عدد من الدراسات، مما فتح آفاقًا جديدة مباشرة للبحث في مجال توليد الصور. ينضم نموذج "Imagen" من جوجل إلى هذا الاتجاه البحثي، ويتفوق على نموذج DALL-E 2 ليصبح أفضل نموذج في توليد الصور من النصوص. ومع ذلك، يعتمد Imagen فقط على نموذج لغوي من نوع T5 لمعالجة النصوص، وهو ما لا يضمن استخلاص المعلومات الدلالية (semantic information) من النصوص. علاوةً على ذلك، فإن شبكة UNet الفعالة (Efficient UNet) التي يستخدمها Imagen ليست الخيار الأمثل في معالجة الصور. لمعالجة هذه المشكلات، نقترح نموذج "Swinv2-Imagen"، وهو نموذج جديد لتوليد الصور من النصوص يعتمد على مُحول بصري هرمي (Hierarchical Visual Transformer) ورسم بياني للمشهد (Scene Graph) يشتمل على تخطيط دلالي. في النموذج المقترح، يتم استخراج متجهات الميزات الخاصة بالكائنات والعلاقات، ودمجها في نموذج التبديد، مما يحسن بشكل فعّال من جودة الصور المولّدة. بالإضافة إلى ذلك، نقدّم بنية جديدة لشبكة UNet تعتمد على مُحول Swin، تُسمى Swinv2-Unet، والتي تُعالج المشكلات الناتجة عن عمليات التصفية (convolution) في الشبكات العصبية التلافيفية (CNN). أجرينا تجارب واسعة لتقييم أداء النموذج المقترح باستخدام ثلاث مجموعات بيانات واقعية، وهي MSCOCO وCUB وMM-CelebA-HQ. أظهرت النتائج التجريبية أن نموذج Swinv2-Imagen المقترح يتفوق على عدة طرق حديثة شهيرة ومتقدمة في مجالها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp