التفكيك الهرمي الفضائي الزمني لإنشاء الفيديو من النص

رغم أن نماذج الانتشار أظهرت قدرات قوية في إنتاج صور واقعية بصريًا، إلا أن إنتاج مقاطع فيديو واقعية ومتنوعة لا يزال في مراحله الأولى. أحد الأسباب الرئيسية هو أن الطرق الحالية تُربِط المحتوى المكاني والديناميكيات الزمنية معًا، مما يؤدي إلى تعقيد كبير في مهمة التوليد النصّي-الفيديو (T2V). في هذا العمل، نقترح HiGen، وهي طريقة تعتمد على نموذج الانتشار، تحسّن الأداء من خلال فصل العوامل المكانية والزمنية للفيديوهات من منظورين: المستوى البنائي والمستوى المحتوى. على المستوى البنائي، نُفكّك مهمة T2V إلى خطوتين: التفكير المكاني والتفكير الزمني، باستخدام مُنظّف موحد. وبشكل محدد، نُولِّد أولًا مُقدّمات متناسقة مكانيًا باستخدام النص خلال التفكير المكاني، ثم نُولّد حركات متناسقة زمنيًا من هذه المُقدّمات خلال التفكير الزمني. أما على المستوى المحتوى، فإننا نستخلص دليلين دقيقين من محتوى الفيديو المدخل، يعبّران على التغيرات في الحركة والملامح على التوالي. ثم تُستخدم هذان المؤشران لتوجيه تدريب النموذج على إنتاج الفيديوهات، ما يُمكّن من تنويع المحتوى بمرن ويعزز الاستقرار الزمني. وبفضل النموذج المنفصل، يمكن لـ HiGen تقليل التعقيد في هذه المهمة بشكل فعّال، وإنتاج مقاطع فيديو واقعية ذات دقة معنوية وثبات حركي. وأظهرت التجارب الواسعة أداءً متفوّقًا لـ HiGen مقارنة بأفضل الطرق الحالية في توليد الفيديو من النص.