LongVie: توليد فيديو طويل جدًا قابل للتحكم بمرافقة متعددة الوسائط

تُعدّ عملية إنشاء مقاطع فيديو طويلة قابلة للتحكم من المهام الأساسية، لكنها تُعدّ أيضًا تحديًا كبيرًا. وعلى الرغم من فعالية الطرق الحالية في معالجة المقاطع القصيرة، فإنها تواجه صعوبات في التوسع بسبب مشكلات مثل عدم الاتساق الزمني وتدهور الجودة البصرية. في هذه الورقة، نقوم أولًا بدراسة هذه المشكلات وتحديد عوامل ثلاث رئيسية: تهيئة الضوضاء بشكل منفصل، وتوحيد تطبيع إشارات التحكم المستقلة، وقيود التوجيه عبر وسيلة واحدة فقط. ولحل هذه المشكلات، نقترح "LongVie"، وهي إطار عمل تلقائي تسلسلي (autoregressive) من البداية إلى النهاية لإنجاز إنشاء فيديوهات طويلة قابلة للتحكم. ويُقدّم LongVie تصميمين رئيسيين لضمان الاتساق الزمني: (1) استراتيجية موحدة لتوليد الضوضاء تُحافظ على اتساق الناتج عبر المقاطع المختلفة، و(2) تطبيع إشارات التحكم على مستوى النظام (global control signal normalization) الذي يُطبّق التزامن في فضاء التحكم طوال مدة الفيديو بأكمله. ولتقليل التدهور البصري، يعتمد LongVie على (3) إطار عمل للتحكم متعدد الوسائط يدمج إشارات تحكم كثيفة (مثل خرائط العمق) وإشارات متباعدة (مثل النقاط المميزة)، إلى جانب (4) استراتيجية تدريب تأخذ بعين الاعتبار التدهور البصري، والتي تُوازن تلقائيًا مساهمات الوسائط المختلفة عبر الزمن للحفاظ على الجودة البصرية. كما نقدّم "LongVGenBench"، وهو معيار شامل يتكوّن من 100 مقطع فيديو عالي الدقة يغطي بيئات واقعية ومُصطنعة متنوعة، حيث تتجاوز مدة كل مقطع دقيقة واحدة. وتُظهر التجارب الواسعة أداءً متفوقًا لـ LongVie في مجالات التحكم على مدى طويل، والاتساق، وجودة الصورة.