مظهر ملابس: تجربة افتراضية متعددة الفئات بدقة عالية

تسعى المحاكاة الافتراضية القائمة على الصور إلى نقل مظهر قطعة ملابس معينة إلى صورة شخص مستهدف. وتركز الدراسات السابقة بشكل رئيسي على الملابس الجزئية العلوية (مثل القمصان، والقمصان القصيرة، والقمصان العلوية)، وتجاهل الملابس الكاملة أو السفلية. ينشأ هذا النقص من عامل رئيسي: لا تأخذ المجموعات المفتوحة للجمهور المتاحة حاليًا لمحاكاة الملابس القائمة على الصور في الاعتبار هذه التنوع، مما يحد من التقدم في هذا المجال. لمعالجة هذه النقص، نقدم مجموعة بيانات "Dress Code"، التي تحتوي على صور لملابس متعددة الفئات. تمتد مجموعة "Dress Code" لتكون أكثر من 3 أضعاف حجم المجموعات المفتوحة للجمهور المتاحة حاليًا لمحاكاة الملابس القائمة على الصور، وتمتاز بوجود صور مزدوجة عالية الدقة (1024×768) تُظهر نماذج كاملة الجسم من الواجهة الأمامية. ولإنتاج صور محاكاة عالية الدقة ذات جودة بصرية عالية وغنية بالتفاصيل، نقترح التعلّم على ميزات تمييزية دقيقة. وبشكل خاص، نستخدم مُميّزًا واعيًا بالسياق (semantic-aware discriminator) يقوم بالتنبؤ على مستوى بكسلات الصورة، بدلاً من مستوى الصورة أو مستوى القطعة (patch). وأظهرت التقييمات التجريبية الواسعة أن النهج المقترح يتفوق على النماذج الأساسية والمنافسين ذوي المستوى المتقدم من حيث الجودة البصرية والنتائج الكمية. تُتاح مجموعة بيانات "Dress Code" للجمهور عبر الرابط التالي: https://github.com/aimagelab/dress-code.