HyperAIHyperAI
منذ 17 أيام

شبكات توليدية متعارضة هرمية مزدوجة للتركيب الصوتي للصورة

Shijie Li, Ming-Ming Cheng, Juergen Gall
شبكات توليدية متعارضة هرمية مزدوجة للتركيب الصوتي للصورة
الملخص

الهدف من التوليد الصوتي للصور هو إنشاء صور واقعية من خرائط التسمية الدلالية. وله أهمية كبيرة في المهام مثل إنشاء المحتوى وتحرير الصور. ومع ذلك، لا تزال الطرق الحديثة الأفضل في هذا المجال تواجه صعوبات في إنشاء كائنات واقعية في الصور على مختلف المقاييس. وبشكل خاص، تميل الكائنات الصغيرة إلى الاختفاء، بينما تُنشأ الكائنات الكبيرة غالبًا كمزيج من القطع. ولحل هذه المشكلة، نقترح شبكة توليدية متحاربة ذات هرمين مزدوجين (DP-GAN) التي تتعلم شرط كتل التطبيع المتكيف مكانيًا على جميع المقاييس معًا، بحيث تُستخدم معلومات المقياس بشكل ثنائي الاتجاه، وتحدد المراقبة على مقاييس مختلفة بشكل موحد. وتُظهر النتائج الكمية والكيفية أن النهج المقترح يُنتج صورًا تكون فيها الكائنات الصغيرة والكبيرة أكثر واقعية مقارنةً بالصور الناتجة عن الطرق الحديثة الأفضل.