SteadyDancer: توليد حركة صورة إنسان متماسكة وموحدة مع الحفاظ على الإطار الأول

الملخص
الحفاظ على هوية الإطار الأول مع ضمان التحكم الدقيق في الحركة يُعد تحديًا أساسيًا في رسم الحركة للصور البشرية. تتجاهل عملية ربط الصورة بالحركة (Image-to-Motion Binding) المُتبعة في النموذج السائد المُعتمد على المرجع إلى الفيديو (R2V) التحديات المهمة المتعلقة بالانحيازات المكانية-الزمنية الشائعة في التطبيقات الواقعية، مما يؤدي إلى فشل في نتائج مثل تشتت الهوية وظهور عيوب بصرية. نحن نقدم "SteadyDancer"، إطار عمل مبني على نموذج الصورة إلى الفيديو (I2V) يحقق رسمًا حركيًا متناسقًا ومتوازنًا، ويُعد أول نموذج يضمن الحفاظ على هوية الإطار الأول بشكل موثوق. أولاً، نقترح آلية توحيد الشروط (Condition-Reconciliation Mechanism) لتوحيد الشرطين المتعارضين، مما يمكّن من التحكم الدقيق دون التضحية بدقة الصورة. ثانيًا، نصمم وحدات تنظيم الموضع التآزري (Synergistic Pose Modulation Modules) لإنتاج تمثيل موضع متكيف ومتماسك يتوافق بشكل عالٍ مع الصورة المرجعية. وأخيرًا، نستخدم نموذج تدريب متدرج ومُفصّل (Staged Decoupled-Objective Training Pipeline) يُحسّن النموذج بشكل هرمي من حيث دقة الحركة، ونوعية الصورة، والاتساق الزمني. تُظهر التجارب أن "SteadyDancer" تحقق أداءً متفوقًا على المستويات الحالية من حيث الولاء للهوية البصرية والتحكم في الحركة، مع استهلاك موارد تدريب أقل بكثير مقارنة بالطرق المماثلة.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.