HyperAIHyperAI

Command Palette

Search for a command to run...

إطلاق الفيديو الواقعية مع نماذج التباعد

Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Li Fei-Fei Irfan Essa Lu Jiang José Lezama

الملخص

نقدّم W.A.L.T، وهي منهجية تعتمد على النموذج التحويلي (Transformer) لإنشاء مقاطع فيديو واقعية بصريًا من خلال نمذجة الانتشار (Diffusion Modeling). يعتمد منهجنا على قرارين رئيسيين في التصميم. أولاً، نستخدم مشفرًا سببيًا (causal encoder) لضغط الصور والفيديوهات معًا داخل فضاء لاتيني موحد، مما يمكّن من التدريب والإنشاء عبر الوسائط المختلفة. ثانيًا، لتحسين كفاءة الذاكرة والتدريب، نستخدم بنية انتباه نافذة (window attention architecture) مصممة خصيصًا للنمذجة التوليدية المكانية والزمنية المتكاملة. وباتخاذ هذه القرارات التصميمية معًا، نتمكن من تحقيق أداءً متميزًا على معايير معيارية للإطلاق الفيديو (UCF-101 وKinetics-600) والإطلاق الصوتي (ImageNet) دون الحاجة إلى استخدام التوجيه الحر من الفئة (classifier-free guidance). وأخيرًا، نقوم أيضًا بتدريب سلسلة من ثلاث نماذج لل任務 الخاصة بإنشاء فيديو من نص، تتكوّن من نموذج أساسي للفيديو اللاتيني التوليدي، ونماذجين آخرين لتحسين دقة الفيديو (video super-resolution diffusion models)، بهدف إنتاج مقاطع فيديو بحلّة 512×896512 \times 896512×896 بكسل وبمعدل 8 إطارات في الثانية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp