منذ 17 أيام
شبكات توليدية متعارضة هرمية مزدوجة للتركيب الصوتي للصورة
Shijie Li, Ming-Ming Cheng, Juergen Gall

الملخص
الهدف من التوليد الصوتي للصور هو إنشاء صور واقعية من خرائط التسمية الدلالية. وله أهمية كبيرة في المهام مثل إنشاء المحتوى وتحرير الصور. ومع ذلك، لا تزال الطرق الحديثة الأفضل في هذا المجال تواجه صعوبات في إنشاء كائنات واقعية في الصور على مختلف المقاييس. وبشكل خاص، تميل الكائنات الصغيرة إلى الاختفاء، بينما تُنشأ الكائنات الكبيرة غالبًا كمزيج من القطع. ولحل هذه المشكلة، نقترح شبكة توليدية متحاربة ذات هرمين مزدوجين (DP-GAN) التي تتعلم شرط كتل التطبيع المتكيف مكانيًا على جميع المقاييس معًا، بحيث تُستخدم معلومات المقياس بشكل ثنائي الاتجاه، وتحدد المراقبة على مقاييس مختلفة بشكل موحد. وتُظهر النتائج الكمية والكيفية أن النهج المقترح يُنتج صورًا تكون فيها الكائنات الصغيرة والكبيرة أكثر واقعية مقارنةً بالصور الناتجة عن الطرق الحديثة الأفضل.