HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج تمايز كمّي متجهي لتصنيع الصور من النص

Shuyang Gu Dong Chen Jianmin Bao Fang Wen Bo Zhang Dongdong Chen Lu Yuan Baining Guo

الملخص

نُقدِّم نموذج التمايز الكمي المتجهي (VQ-Diffusion) لإنشاء الصور من النص. يعتمد هذا النهج على مُشفِّر تلقائي تكاملي كمي متجهي (VQ-VAE)، حيث يتم نمذجة الفضاء المخفي باستخدام نسخة مشروطة من نموذج الاحتمالات التمايزية للتمايز (DDPM)، الذي تم تطويره حديثًا. وجدنا أن هذا النهج في الفضاء المخفي يُعد مناسبًا جدًا لمهمات إنشاء الصور من النص، لأنه لا يُقلل فقط من التحيز الاتجاهي الواحد الذي يُعاني منه النماذج الحالية، بل يسمح لنا أيضًا بدمج استراتيجية التمايز بالقناع والاستبدال (mask-and-replace diffusion) لتجنب تراكم الأخطاء، وهي مشكلة خطيرة في النماذج الحالية. تُظهر تجاربنا أن نموذج VQ-Diffusion يُنتج نتائج إنشاء صور من نص بشكل ملحوظ أفضل مقارنةً بالنماذج التلقائية التسلسلية (AR) التقليدية التي تمتلك عددًا مماثلًا من المعلمات. وبالمقارنة مع الطرق السابقة القائمة على الشبكات التوليديّة التناقضية (GAN)، يمكن لنموذج VQ-Diffusion التعامل مع مشاهد أكثر تعقيدًا وتحسين جودة الصور المُولَّدة بشكل كبير. وأخيرًا، نُظهر أن حساب إنشاء الصور في نهجنا يمكن جعله عالي الكفاءة من خلال إعادة التمثيل (reparameterization). ففي النماذج التسلسلية التقليدية، يزداد وقت إنشاء الصور من النص بشكل خطي مع دقة الصورة الناتجة، مما يجعل العملية طويلة جدًا حتى بالنسبة للصور ذات الحجم العادي. أما نموذج VQ-Diffusion، فيسمح لنا بتحقيق توازن أفضل بين الجودة والسرعة. وتشير تجاربنا إلى أن نموذج VQ-Diffusion مع إعادة التمثيل يكون أسرع بـ 15 مرة مقارنةً بالطرق التسلسلية التقليدية، مع تحقيق جودة صورة أفضل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp