SESAME: التحرير الدلالي للمناظر من خلال إضافة أو تعديل أو حذف الكائنات

أدت التطورات الحديثة في توليد الصور إلى ظهور أدوات قوية للتعديل الدلالي على الصور. ومع ذلك، فإن الطرق الحالية إما تعمل على صورة واحدة فقط، أو تتطلب كمية كبيرة من المعلومات الإضافية. كما أنها غير قادرة على التعامل مع المجموعة الكاملة من عمليات التعديل، أي إضافة أو تعديل أو إزالة المفاهيم الدلالية. وللتغلب على هذه القيود، نقترح نموذج SESAME، وهو زوج جديد من المولّد (generator) والمتناقض (discriminator) لتعديل المشاهد دلاليًا من خلال إضافة أو تعديل أو إزالة الكائنات. في إعدادنا، يوفر المستخدم التسميات الدلالية للمناطق التي تُعدّل، ويُولّد المولّد القيم البيكسلية المقابلة. على عكس الطرق السابقة التي تستخدم متناقضًا يدمج التسميات الدلالية والصورة بشكل تلقائي وسطحي، يتكوّن متناقض SESAME من دفقين مدخلين مستقلين يعالجان الصورة والدلالات بشكل منفصل، ويستخدم الدفق الدلالي لتعديل نتائج الدفق البصري. قمنا بتقييم نموذجنا على مجموعة متنوعة من المجموعات البيانات، ونُشرت أداءً متميزًا على مستوى الحد الأدنى في مهامين: (أ) تعديل الصور، و(ب) توليد صور مشروطة بالتسميات الدلالية.