Command Palette
Search for a command to run...
Vanast: تجربة قياس الملابس الافتراضية مع تحريك صور البشر عبر الإشراف الثلاثي الاصطناعي (Synthetic Triplet Supervision)
Vanast: تجربة قياس الملابس الافتراضية مع تحريك صور البشر عبر الإشراف الثلاثي الاصطناعي (Synthetic Triplet Supervision)
Hyunsoo Cha Wonjung Woo Byungjun Kim Hanbyul Joo
الملخص
نقدم لكم Vanast، وهو إطار عمل موحد (unified framework) يقوم بتوليد مقاطع فيديو رسوم متحركة للبشر مع نقل الملابس (garment-transferred human animation) مباشرة من صورة بشرية واحدة، وصور للملابس، وفيديو توجيهي للوضعية (pose guidance video). تتعامل الـ pipelines التقليدية المكونة من مرحلتين مع تجربة القياس الافتراضي القائمة على الصور (image-based virtual try-on) والرسوم المتحركة المدفوعة بالوضعية (pose-driven animation) كعمليتين منفصلتين، مما يؤدي غالباً إلى انحراف الهوية (identity drift)، وتشوه الملابس، وعدم الاتساق بين الأمام والخلف. يعالج نموذجنا هذه المشكلات من خلال تنفيذ العملية بأكملها في خطوة موحدة واحدة لتحقيق تخليق (synthesis) متماسك.ولتمكين هذا الإعداد، قمنا ببناء إشراف ثلاثي (triplet supervision) واسع النطاق. تتضمن الـ pipeline الخاصة بتوليد البيانات لدينا توليد صور بشرية تحافظ على الهوية (identity-preserving) بملابس بديلة تختلف عن صور كتالوج الملابس، والتقاط مجموعات ثلاثية كاملة للملابس العلوية والسفلية للتغلب على محدودية زوج (فيديو بوضعية واحدة وملابس واحدة)، وتجميع مجموعات ثلاثية متنوعة من الواقع (in-the-wild) دون الحاجة إلى صور من كتالوج الملابس.علاوة على ذلك، قدمنا بنية "النموذج المزدوج" (Dual Module architecture) لـ video diffusion transformers من أجل استقرار عملية الـ training، والحفاظ على الجودة التوليدية المدربة مسبقاً (pretrained generative quality)، وتحسين دقة الملابس، والالتزام بالوضعية (pose adherence)، والحفاظ على الهوية، مع دعم عملية الـ zero-shot garment interpolation. تتيح هذه المساهمات مجتمعة لـ Vanast إنتاج رسوم متحركة عالية الدقة ومتسقة الهوية عبر مجموعة واسعة من أنواع الملابس.