فوست: تحويلة توليد موحدة وقابلة للتوسع لتجربة افتراضية ثنائية الاتجاه وتجربة الإزالة

تهدف التقنية الافتراضية لتجربة الملابس (Virtual Try-On) إلى توليد صورة واقعية لشخص يرتدي قطعة ملابس معينة، لكن التمثيل الدقيق للعلاقة بين الملابس والجسم يظل تحديًا مستمرًا، خاصة في ظل التغيرات في الوضعية والملامح. في هذه الورقة، نقترح إطار عمل موحد وقابل للتوسع يُسمى Voost، والذي يتعلم بشكل مشترك تجربة الملابس (try-on) وعكسها (try-off) باستخدام نموذج واحد يعتمد على التحويلة التشتتية (diffusion transformer). من خلال نمذجة هذين المهمتين معًا، يمكّن Voost كل زوج من الملابس والجسم من التوجيه المتبادل للإشراف، ويدعم شرطًا مرنًا حسب اتجاه التوليد وفئة الملابس، مما يعزز الاستدلال على العلاقات بين الملابس والجسم دون الحاجة إلى شبكات مخصصة للمهمة، أو خسائر مساعدة، أو تسميات إضافية. بالإضافة إلى ذلك، نُقدّم تقنيتين في مرحلة الاستدلال: تكييف درجة حرارة الانتباه (attention temperature scaling) لتحسين المقاومة للتغيرات في الدقة أو في الخريطة (mask)، وعينة تصحيح ذاتي (self-corrective sampling) التي تستفيد من الاتساق الثنائي بين المهمتين. تُظهر التجارب الواسعة أن Voost يحقق نتائج متقدمة على مستوى التقنيات الحالية في كلا معياري تجربة الملابس (try-on) وعكسها (try-off)، ويتفوق باستمرار على النماذج القوية في دقة التوافق، وواقعية الصورة، والتعميم.