الاحتيال! نقل البشر بين الصور باستخدام التحكم في الانتباه المتقاطع الدلالي

يهدف جسم كبير من الأعمال الحديثة إلى توليد الصور بحسب المعنى (semantically conditioned image generation). تركز معظم هذه الطرق على المهمة الأضيق المتمثلة في نقل الوضعية (pose transfer) وتتجاهل المهمة الأكثر تحديًا وهي نقل الموضوع، والتي تتضمن ليس فقط نقل الوضعية بل أيضًا المظهر والخلفية. في هذا العمل، نقدم نظام SCAM (تعديل الانتباه العرضي الدلالي Semantic Cross Attention Modulation)، الذي يرمّز معلومات غنية ومتنوعة في كل منطقة دلالية من الصورة (بما في ذلك المقدمة والخلفية)، مما يحقق توليدًا دقيقًا مع التركيز على التفاصيل الدقيقة. يتم تمكين هذا النظام بواسطة مُشفِّر متغير الانتباه الدلالي (Semantic Attention Transformer Encoder) الذي يستخرج متجهات خفية متعددة لكل منطقة دلالية، والمولد المرتبط به والذي يستفيد من هذه المتجهات الخفية المتعددة باستخدام تعديل الانتباه العرضي الدلالي. يتم تدريبه باستخدام إعداد إعادة الإنشاء فحسب، بينما يتم تنفيذ نقل الموضوع أثناء الاختبار. تُظهر تحليلاتنا أن الهندسة التي اقترحناها ناجحة في رموز تنوع المظهر في كل منطقة دلالية. أثبتت التجارب الواسعة على قواعد بيانات iDesigner وCelebAMask-HD أن SCAM يتفوق على SEAN وSPADE؛ بالإضافة إلى أنه يحدد الحالة الجديدة للتقنية في مجال نقل الموضوع.