HyperAIHyperAI
منذ 16 أيام

التفكيك الهرمي الفضائي الزمني لإنشاء الفيديو من النص

Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya Zhang, Changxin Gao, Nong Sang
التفكيك الهرمي الفضائي الزمني لإنشاء الفيديو من النص
الملخص

رغم أن نماذج الانتشار أظهرت قدرات قوية في إنتاج صور واقعية بصريًا، إلا أن إنتاج مقاطع فيديو واقعية ومتنوعة لا يزال في مراحله الأولى. أحد الأسباب الرئيسية هو أن الطرق الحالية تُربِط المحتوى المكاني والديناميكيات الزمنية معًا، مما يؤدي إلى تعقيد كبير في مهمة التوليد النصّي-الفيديو (T2V). في هذا العمل، نقترح HiGen، وهي طريقة تعتمد على نموذج الانتشار، تحسّن الأداء من خلال فصل العوامل المكانية والزمنية للفيديوهات من منظورين: المستوى البنائي والمستوى المحتوى. على المستوى البنائي، نُفكّك مهمة T2V إلى خطوتين: التفكير المكاني والتفكير الزمني، باستخدام مُنظّف موحد. وبشكل محدد، نُولِّد أولًا مُقدّمات متناسقة مكانيًا باستخدام النص خلال التفكير المكاني، ثم نُولّد حركات متناسقة زمنيًا من هذه المُقدّمات خلال التفكير الزمني. أما على المستوى المحتوى، فإننا نستخلص دليلين دقيقين من محتوى الفيديو المدخل، يعبّران على التغيرات في الحركة والملامح على التوالي. ثم تُستخدم هذان المؤشران لتوجيه تدريب النموذج على إنتاج الفيديوهات، ما يُمكّن من تنويع المحتوى بمرن ويعزز الاستقرار الزمني. وبفضل النموذج المنفصل، يمكن لـ HiGen تقليل التعقيد في هذه المهمة بشكل فعّال، وإنتاج مقاطع فيديو واقعية ذات دقة معنوية وثبات حركي. وأظهرت التجارب الواسعة أداءً متفوّقًا لـ HiGen مقارنة بأفضل الطرق الحالية في توليد الفيديو من النص.

التفكيك الهرمي الفضائي الزمني لإنشاء الفيديو من النص | أحدث الأوراق البحثية | HyperAI