محاكاة افتراضية بدون معالج من خلال تقطيع تدفقات المظهر

يهدف التجربة الافتراضية للصورة إلى تثبيت صورة الملابس (الملابس المستهدفة) على صورة شخص. تعتمد الطرق السابقة بشكل كبير على تحليل الإنسان (human parsing). ومع ذلك، فإن نتائج التجزئة الخاطئة قليلاً تؤدي إلى صور تجربة غير واقعية تحتوي على تشوهات كبيرة. يؤدي التحليل غير الدقيق إلى إرباك الطرق القائمة على التحليل، مما ينتج نتائج بصريًا غير واقعية، حيث تظهر التشوهات عادةً. وقد استخدمت دراسة رائدة حديثة تدريب التحويل المعرفي (knowledge distillation) لتقليل الاعتماد على تحليل الإنسان، حيث تُستخدم صور التجربة الناتجة عن النموذج القائم على التحليل كإشراف لتدريب شبكة "طالب" (student) دون الاعتماد على التجزئة، مما يمكّن الطالب من تقليد قدرة النموذج القائم على التحليل. ومع ذلك، فإن جودة الصور الناتجة عن الطالب محدودة بجودة النموذج القائم على التحليل. ولحل هذه المشكلة، نقترح منهجية جديدة تُسمى "المحاضر-المُعلّم-الطالب" (teacher-tutor-student) في تدريب التحويل المعرفي، التي تُنتج صورًا واقعية للغاية دون الحاجة إلى تحليل الإنسان، وتمتاز بعدة مزايا جذابة مقارنة بالطرق السابقة. (1) على عكس الدراسات الحالية، يُعامل هذا النهج الصور المزيفة الناتجة عن النموذج القائم على التحليل كـ"معرفة مُعلّم" (tutor knowledge)، حيث يمكن تصحيح التشوهات باستخدام "معرفة مُعلّم حقيقية" (teacher knowledge) التي تُستخلص من صور الأشخاص الحقيقية بطريقة ذاتية الإشراف (self-supervised). (2) بخلاف استخدام الصور الحقيقية كإشراف، نُصيغ تدريب التحويل المعرفي في مسألة التجربة الافتراضية من خلال استخلاص تدفق المظهر بين صورة الشخص وصورة الملابس، مما يمكّننا من إيجاد تطابق كثيف دقيق بين الصورين لإنتاج نتائج عالية الجودة. (3) أظهرت التقييمات الواسعة تفوقًا كبيرًا لطريقتنا (انظر الشكل 1).