HyperAIHyperAI

Command Palette

Search for a command to run...

التفكيك الهرمي الفضائي الزمني لإنشاء الفيديو من النص

Zhiwu Qing Shiwei Zhang Jiayu Wang Xiang Wang Yujie Wei Yingya Zhang Changxin Gao Nong Sang

الملخص

رغم أن نماذج الانتشار أظهرت قدرات قوية في إنتاج صور واقعية بصريًا، إلا أن إنتاج مقاطع فيديو واقعية ومتنوعة لا يزال في مراحله الأولى. أحد الأسباب الرئيسية هو أن الطرق الحالية تُربِط المحتوى المكاني والديناميكيات الزمنية معًا، مما يؤدي إلى تعقيد كبير في مهمة التوليد النصّي-الفيديو (T2V). في هذا العمل، نقترح HiGen، وهي طريقة تعتمد على نموذج الانتشار، تحسّن الأداء من خلال فصل العوامل المكانية والزمنية للفيديوهات من منظورين: المستوى البنائي والمستوى المحتوى. على المستوى البنائي، نُفكّك مهمة T2V إلى خطوتين: التفكير المكاني والتفكير الزمني، باستخدام مُنظّف موحد. وبشكل محدد، نُولِّد أولًا مُقدّمات متناسقة مكانيًا باستخدام النص خلال التفكير المكاني، ثم نُولّد حركات متناسقة زمنيًا من هذه المُقدّمات خلال التفكير الزمني. أما على المستوى المحتوى، فإننا نستخلص دليلين دقيقين من محتوى الفيديو المدخل، يعبّران على التغيرات في الحركة والملامح على التوالي. ثم تُستخدم هذان المؤشران لتوجيه تدريب النموذج على إنتاج الفيديوهات، ما يُمكّن من تنويع المحتوى بمرن ويعزز الاستقرار الزمني. وبفضل النموذج المنفصل، يمكن لـ HiGen تقليل التعقيد في هذه المهمة بشكل فعّال، وإنتاج مقاطع فيديو واقعية ذات دقة معنوية وثبات حركي. وأظهرت التجارب الواسعة أداءً متفوّقًا لـ HiGen مقارنة بأفضل الطرق الحالية في توليد الفيديو من النص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp