HyperAI
منذ 16 أيام

شكل-للحركة: تحرير الفيديو بدقة واتساق باستخدام نموذج ثلاثي الأبعاد

Yuhao Liu; Tengfei Wang; Fang Liu; Zhenwei Wang; Rynson W.H. Lau
شكل-للحركة: تحرير الفيديو بدقة واتساق باستخدام نموذج ثلاثي الأبعاد
الملخص

التطورات الحديثة في نماذج التوليد العميقة فتحت فرصًا غير مسبوقة لإنشاء الفيديو. ومع ذلك، في التطبيقات الحقيقية، غالبًا ما يبحث المستخدمون عن أدوات تمكنهم من تحقيق نواياهم الإبداعية للتحرير بدقة واتساق. رغم التقدم الذي أحرزته الطرق الحالية، فإن ضمان التناسق الدقيق مع نوايا المستخدم لا يزال مشكلة مفتوحة ومليئة بالتحديات. في هذا العمل، نقدم Shape-for-Motion، إطار عمل جديد يدمج وكيل ثلاثي الأبعاد لتحقيق تحرير الفيديو الدقيق والثابت. يتمكن Shape-for-Motion من تحقيق هذا الهدف عبر تحويل الكائن المستهدف في الفيديو المدخل إلى شبكة زمنية ثابتة (mesh)، أي وكيل ثلاثي الأبعاد، مما يسمح بتنفيذ التعديلات مباشرة على الوكيل ومن ثم استنتاجها مرة أخرى إلى إطارات الفيديو. لتبسيط عملية التحرير، صممنا استراتيجية انتشار ثنائية جديدة تتيح للمستخدمين تنفيذ التعديلات على الشبكة ثلاثية الأبعاد لإطار واحد فقط، حيث يتم انتشار هذه التعديلات تلقائيًا إلى شبكات الإطارات الأخرى ثلاثية الأبعاد. يتم تصوير الشبكات ثلاثية الأبعاد للإطارات المختلفة على المساحة ثنائية الأبعاد لإنتاج الرسومات الهندسية والمادة السطحية (texture) المعدلة، والتي تعمل كمدخلات لنموذج توزيع الفيديو المنفصل (decoupled video diffusion model) لإنشاء النتائج المعدلة. يدعم إطارنا العمل مجموعة متنوعة من العمليات الدقيقة والمتلائمة مع القوانين الفيزيائية عبر إطارات الفيديو، بما في ذلك تعديل الوضع (pose editing)، الدوران، التغيير في الحجم (scaling)، الترجمة (translation)، تعديل المادة السطحية (texture modification)، وإعادة تركيب الكائنات (object composition). يعتبر نهجنا خطوة مهمة نحو سير عمل عالي الجودة وقابل للتحكم في تحرير الفيديو. تظهر التجارب الواسعة تفوق وأثر نهجنا. صفحة المشروع: https://shapeformotion.github.io/