Command Palette
Search for a command to run...
VideoComposer: تركيب إنتاج الفيديو مع التحكم في الحركة
VideoComposer: تركيب إنتاج الفيديو مع التحكم في الحركة
Xiang Wang Hangjie Yuan Shiwei Zhang Dayou Chen Jiuniu Wang Yingya Zhang Yujun Shen Deli Zhao Jingren Zhou
الملخص
إن سعي تحقيق التحكم كمعيار أعلى في إنشاء المحتوى المرئي قد أدى إلى تقدم ملحوظ في توليد الصور القابلة للتخصيص. ومع ذلك، لا يزال تحقيق توليد الفيديو القابل للتحكم يُعد تحديًا كبيرًا نظرًا لتنوع الديناميات الزمنية الكبير والمتطلبات المرتبطة بالاتساق الزمني عبر الإطارات المختلفة. استنادًا إلى نموذج التوليد التجميعي، تقدم هذه الدراسة نموذج VideoComposer الذي يتيح للمستخدمين تجميع فيديو بطرق مرنة باستخدام شروط نصية، وشروط مكانية، والأهم من ذلك شروط زمنية. وبشكل خاص، وبما أن بيانات الفيديو تتميز بخصائص معينة، نُدخل متجه الحركة المستخلص من الفيديوهات المُضغطة كإشارة تحكم صريحة لتوجيه الديناميات الزمنية. بالإضافة إلى ذلك، طوّرنا ما يُعرف بـ "مُشفر الشروط المكانية والزمنية" (STC-encoder)، الذي يعمل كواجهة موحدة لدمج العلاقات المكانية والزمنية للإدخالات المتسلسلة بشكل فعّال، مما يمكّن النموذج من الاستفادة الأفضل من الشروط الزمنية، وبالتالي تحقيق اتساق أعلى بين الإطارات. تشير النتائج التجريبية الواسعة إلى أن VideoComposer قادر على التحكم في الأنماط المكانية والزمنية معًا داخل الفيديو المولّد بأشكال متعددة، مثل الوصف النصي، أو سلسلة من الرسومات التخطيطية، أو فيديو مرجعي، أو حتى حركات مُصممة يدويًا. سيتم الإفصاح عن الكود والنماذج المستخدمة بشكل عام عبر الرابط التالي: https://videocomposer.github.io.