HyperAIHyperAI
منذ 17 أيام

تحتاج فقط إلى إشراف مُضاد للاستدلال البصري المعاني

Vadim Sushko, Edgar Schönfeld, Dan Zhang, Juergen Gall, Bernt Schiele, Anna Khoreva
تحتاج فقط إلى إشراف مُضاد للاستدلال البصري المعاني
الملخص

على الرغم من النجاحات الحديثة، تستمر نماذج GAN لتصنيع الصور الشاملة في مواجهة جودة صورة ضعيفة عند التدريب باستخدام المراقبة العدوية وحدها. تاريخيًا، ساهمت إضافة خسارة الوعي المستندة إلى VGG في التغلب على هذه المشكلة، وحسّنت بشكل كبير جودة التوليد، لكنها في الوقت نفسه قيدت تقدّم نماذج GAN في مجال تصنيع الصور الشاملة. في هذا العمل، نقترح نموذج GAN جديدًا مبسطًا، يعتمد فقط على المراقبة العدوية لتحقيق نتائج عالية الجودة. قمنا بإعادة تصميم المُميّز ليصبح شبكة تصنيف معنوي للصورة، واستخدمنا خرائط التسمية المعطاة كحقائق أساسية (ground truth) لتدريبه مباشرةً. وبفضل تزويد المُميّز والمحوّل بمراقبة أقوى من خلال تغذية راجعة مُراعية للمساحة والمعنى، نتمكن من تصنيع صور ذات واقعية أعلى وانسجام أفضل مع خرائط التسمية المدخلة، مما يجعل استخدام خسارة الوعي غير ضروري. علاوةً على ذلك، نمكّن من تصنيع صور عالية الجودة متعددة الأشكال من خلال أخذ عينات عالمية ومحليّة من تمثيل عشوائي ثلاثي الأبعاد (3D noise tensor) يتم إدخاله إلى المحول، ما يسمح بتغيير كامل أو جزئي للصورة. نُظهر أن الصور المُصنعة بواسطة نموذجنا أكثر تنوعًا، وتتبع توزيعات الألوان والتركيبات في الصور الحقيقية بشكل أدق. ونحقق متوسط تحسن قدره 6 نقاط في FID و5 نقاط في mIoU مقارنةً بأفضل النماذج الحالية على مختلف المجموعات البيانات، باستخدام فقط المراقبة العدوية.