HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 23 أيام

VideoCanvas: إكمال الفيديو الموحّد من قطع مكانيّة زمنيّة عشوائية عبر التكييف السياقي

Minghong Cai Qiulin Wang Zongli Ye Wenze Liu Quande Liu Weicai Ye Xintao Wang Pengfei Wan Kun Gai Xiangyu Yue

VideoCanvas: إكمال الفيديو الموحّد من قطع مكانيّة زمنيّة عشوائية عبر التكييف السياقي

الملخص

نُقدّم مهمة إكمال الفيديو المكاني الزمني العشوائي، حيث يتم إنشاء فيديو من خلال بقع محددة من قبل المستخدم، وتقع في أي موقع مكاني ووقت زمني، بأسلوب يشبه الرسم على قماشة فيديو. يُعدّ هذا النموذج المرن توحيدًا طبيعيًا لعدة مهام حالية لإنشاء فيديو قابل للتحكم، بما في ذلك تحويل الصورة الأولى إلى فيديو، وإكمال الصور المفقودة، وتمديد الفيديو، والانسيابية الزمنية، ضمن إطار متماسك واحد. ومع ذلك، فإن تحقيق هذه الرؤية يواجه عقبة جوهرية في نماذج التمايز الفيديو في الفضاء الخفي الحديثة: التباس زمني ناتج عن نماذج التشفير العشوائي السببي (causal VAEs)، حيث يتم ضغط عدة أطر بيكسلية إلى تمثيل خفي واحد، مما يجعل من الصعب هندسيًا التحكم بدقة على مستوى الإطار. لمعالجة هذا التحدي، نقدّم إطار عمل جديد يُسمى VideoCanvas، الذي يُعدّل نموذج التحكم السياقي (In-Context Conditioning - ICC) لتناسب هذه المهمة ذات الدقة العالية، دون إضافة أي معلمات جديدة. ونقترح استراتيجية توليفية للتحكم تفصل بين التحكم المكاني والزمني: حيث يتم التعامل مع التوزيع المكاني من خلال التعبئة الصفرية (zero-padding)، بينما يتم تحقيق التزامن الزمني من خلال تقنية تداخل RoPE الزمنية (Temporal RoPE Interpolation)، التي تُعيّن لكل شرط موضعًا كسريًا مستمرًا ضمن التسلسل الخفي. وهذا يُحلّل التباس الزمني الناتج عن VAE، ويُمكّن من التحكم المتميّز بحسب الإطار البكسيلي، على هيكل أساسي ثابت (frozen backbone). ولتقييم هذه القدرة الجديدة، قمنا بتطوير VideoCanvasBench، أول معيار لتقييم إكمال الفيديو المكاني الزمني العشوائي، يغطي كلاً من الولاء الداخلي للسينة (intra-scene fidelity) والإبداع بين السينات (inter-scene creativity). وأظهرت التجارب أن VideoCanvas يتفوّق بشكل كبير على النماذج الحالية للتحكم، مُحدّدًا حالة جديدة من التقدّم في إنشاء الفيديو المرن والموحّد.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VideoCanvas: إكمال الفيديو الموحّد من قطع مكانيّة زمنيّة عشوائية عبر التكييف السياقي | الأوراق البحثية | HyperAI