Command Palette
Search for a command to run...
GenCompositor: توليد مركبات الفيديو باستخدام محول التشتت
Shuzhou Yang Xiaoyu Li Xiaodong Cun Guangzhi Wang Lingen Li Ying Shan Jian Zhang

الملخص
يُعدّ تجميع الفيديو (Video Compositing) تقنية أساسية في إنتاج الفيديو وإنتاج الأفلام، حيث يُجمع من خلالها لقطات حية لخلق إنتاج فيديو متكامل. وتعتمد الأنماط التقليدية على جهود يدوية كبيرة وتعاون خبراء، ما يؤدي إلى دورة إنتاج طويلة وتكاليف عالية في العمالة. ولحل هذه المشكلة، نُقدّم آلية أتمتة هذه العملية باستخدام نماذج توليدية، تُعرف باسم "تجميع الفيديو التوليدي" (Generative Video Compositing). ويهدف هذا المفهوم الجديد إلى دمج معلومات الهوية والحركة من الفيديو الأمامي (foreground) في الفيديو المستهدف بشكل تفاعلي وتكيفي، مما يتيح للمستخدمين تخصيص حجم العناصر الديناميكية، ومسار حركتها، وغيرها من الخصائص في الفيديو النهائي. وبشكل خاص، قمنا بتصميم نموذج جديد يُسمى "مُحول التوليد التفاضلي" (Diffusion Transformer - DiT)، مستخدمين خصائصه الجوهرية. ولضمان الاتساق في الفيديو المستهدف قبل وبعد التعديل، قمنا بتعديل فرع مُخصص لحفظ الخلفية يعتمد على نموذج DiT خفيف الوزن، باستخدام تقنية إدخال رموز مُقنّعة (masked token injection). وبالنسبة لاستلهام العناصر الديناميكية من مصادر أخرى، قمنا بتطوير "كتلة دمج DiT" تستخدم الانتباه الذاتي الكامل، إلى جانب تقنية بسيطة ولكن فعالة لتعزيز الفيديو الأمامي أثناء التدريب. علاوةً على ذلك، ولدمج الفيديوهات الخلفية والأمامية التي تختلف في التخطيط بناءً على تحكم المستخدم، طوّرنا نوعًا جديدًا من التضمين المكاني يُسمى "التضمين المكاني الدوراني الممتد" (Extended Rotary Position Embedding - ERoPE). وأخيرًا، قمنا بتكوين مجموعة بيانات مكوّنة من 61 ألف مجموعة فيديو لاختبار المهمة الجديدة، وسُمّيت هذه المجموعة باسم VideoComp. وتشمل هذه المجموعة عناصر ديناميكية كاملة وفيديوهات مستهدفة عالية الجودة. وأظهرت التجارب أن طريقة عملنا تُحقّق بشكل فعّال تجميع الفيديو التوليدي، وتتفوّق على الحلول المتاحة حاليًا من حيث الدقة والاتساق.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.