Command Palette
Search for a command to run...
التركيب التفاعلي للصورة مع توليد التخطيط الشامل
التركيب التفاعلي للصورة مع توليد التخطيط الشامل
Bo Wang Tao Wu Minfeng Zhu Peng Du∗
الملخص
إنشاء الصور التفاعلية من المدخلات المسترشدة بالمستخدم هو مهمة صعبة عندمايرغب المستخدمون في التحكم بسهولة في بنية المشهد للصورة المولدة. على الرغم من التقدم الملحوظ الذي تحقق في نهج إنشاء الصور القائم على التخطيط، فإن الطرق الحالية تتطلب مدخلات عالية الدقة لحصول مشهد تفاعلي واقعي، مما قد يحتاج إلى تعديل عدة مرات وهو غير ودود للمستخدمين الجدد. عند خضوع مواقع الصناديق الحدودية للاضطراب، تعاني النماذج القائمة على التخطيط من "مناطق مفقودة" في التخطيطات الدلالية المبنية وبالتالي من عيوب غير مرغوب فيها في الصور المولدة. في هذا العمل، نقترح شبكات التنافس الخلاقة البانورامية للتخطيط (Panoptic Layout Generative Adversarial Networks - PLGAN) لمعالجة هذا التحدي. تستعمل PLGAN النظرية البانورامية التي تميز بين فئات الأشياء "المادة" ذات الحدود اللامحددة والأشياء "الكائنات" ذات الأشكال المحددة جيدًا، بحيث يتم بناء تخطيطات المادة وتخطيطات الكائنات عبر فروع منفصلة ثم دمجها فيما بعد في تخطيطات بانورامية. بشكل خاص، يمكن لتخطيطات المادة أن تأخذ أشكالًا لامحددة وتملأ المناطق المفقودة التي تركتها تخطيطات الكائنات. قمنا بمقارنة تجريبية لنموذج PLGAN مع أفضل النماذج القائمة على التخطيط حاليًا على مجموعات بيانات COCO-Stuff و Visual Genome و Landscape. لم يتم إثبات مزايا PLGAN فقط بصريًا بل تم التحقق منها كمياً أيضًا من حيث درجة الانبعاث (inception score) ومسافة فريشيت للانبعاث (Fr'echet inception distance) ودرجة دقة تصنيف الصور ونسبة التغطية.