VideoComposer: تركيب إنتاج الفيديو مع التحكم في الحركة

إن سعي تحقيق التحكم كمعيار أعلى في إنشاء المحتوى المرئي قد أدى إلى تقدم ملحوظ في توليد الصور القابلة للتخصيص. ومع ذلك، لا يزال تحقيق توليد الفيديو القابل للتحكم يُعد تحديًا كبيرًا نظرًا لتنوع الديناميات الزمنية الكبير والمتطلبات المرتبطة بالاتساق الزمني عبر الإطارات المختلفة. استنادًا إلى نموذج التوليد التجميعي، تقدم هذه الدراسة نموذج VideoComposer الذي يتيح للمستخدمين تجميع فيديو بطرق مرنة باستخدام شروط نصية، وشروط مكانية، والأهم من ذلك شروط زمنية. وبشكل خاص، وبما أن بيانات الفيديو تتميز بخصائص معينة، نُدخل متجه الحركة المستخلص من الفيديوهات المُضغطة كإشارة تحكم صريحة لتوجيه الديناميات الزمنية. بالإضافة إلى ذلك، طوّرنا ما يُعرف بـ "مُشفر الشروط المكانية والزمنية" (STC-encoder)، الذي يعمل كواجهة موحدة لدمج العلاقات المكانية والزمنية للإدخالات المتسلسلة بشكل فعّال، مما يمكّن النموذج من الاستفادة الأفضل من الشروط الزمنية، وبالتالي تحقيق اتساق أعلى بين الإطارات. تشير النتائج التجريبية الواسعة إلى أن VideoComposer قادر على التحكم في الأنماط المكانية والزمنية معًا داخل الفيديو المولّد بأشكال متعددة، مثل الوصف النصي، أو سلسلة من الرسومات التخطيطية، أو فيديو مرجعي، أو حتى حركات مُصممة يدويًا. سيتم الإفصاح عن الكود والنماذج المستخدمة بشكل عام عبر الرابط التالي: https://videocomposer.github.io.