HyperAIHyperAI

Command Palette

Search for a command to run...

StackGAN: توليد صور واقعية من النص باستخدام شبكات التضاد التوليدية المتراكمة

Han Zhang Tao Xu Hongsheng Li Shaoting Zhang Xiaogang Wang Xiaolei Huang Dimitris Metaxas

الملخص

إنشاء صور عالية الجودة من وصف نصي هو مشكلة معقدة في مجال رؤية الحاسوب ولها العديد من التطبيقات العملية. يمكن للعينات التي تنتجها الطرق الحالية لتحويل النص إلى صورة أن تعكس بصفة عامة معنى الوصف المعطى، ولكنها تفشل في إدراج التفاصيل اللازمة والأجزاء الملونة للأشياء. في هذا البحث، نقترح استخدام شبكات التوليد المتنافسة المتراكمة (StackGAN) لإنشاء صور واقعية بحجم 256x256 مشروطة بالوصف النصي. نقوم بتقسيم المشكلة الصعبة إلى مسائل فرعية أكثر قابلية للإدارة من خلال عملية توضيح وإعادة التحديد. يقوم شبكات التوليد المتنافسة المرحلة الأولى (Stage-I GAN) برسم الشكل الأساسي وألوان الكائن بناءً على الوصف النصي المعطى، مما ينتج عنه صور ذات دقة منخفضة في المرحلة الأولى (Stage-I). أما شبكات التوليد المتنافسة المرحلة الثانية (Stage-II GAN)، فتأخذ نتائج المرحلة الأولى والوصف النصي كمدخلات وتولد صورًا ذات دقة عالية تحتوي على تفاصيل واقعية. وهي قادرة على تصحيح العيوب في نتائج المرحلة الأولى وإضافة تفاصيل مقنعة من خلال عملية إعادة التحديد. لتحسين تنوع الصور المركبة واستقرار تدريب شبكات التوليد المشروطة، قدمنا تقنية جديدة هي تقنية زيادة الشرط (Conditioning Augmentation) التي تشجع على الانسيابية في المنحني الشرطي الخفي. أظهرت التجارب الواسعة والمقارنات مع أفضل التقنيات الحالية على مجموعات البيانات المرجعية أن الطريقة المقترحة حققت تحسينات كبيرة في إنشاء صور واقعية مشروطة بالوصف النصي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp