منذ 6 أشهر

الملخص

نقدّم W.A.L.T، وهي منهجية تعتمد على النموذج التحويلي (Transformer) لإنشاء مقاطع فيديو واقعية بصريًا من خلال نمذجة الانتشار (Diffusion Modeling). يعتمد منهجنا على قرارين رئيسيين في التصميم. أولاً، نستخدم مشفرًا سببيًا (causal encoder) لضغط الصور والفيديوهات معًا داخل فضاء لاتيني موحد، مما يمكّن من التدريب والإنشاء عبر الوسائط المختلفة. ثانيًا، لتحسين كفاءة الذاكرة والتدريب، نستخدم بنية انتباه نافذة (window attention architecture) مصممة خصيصًا للنمذجة التوليدية المكانية والزمنية المتكاملة. وباتخاذ هذه القرارات التصميمية معًا، نتمكن من تحقيق أداءً متميزًا على معايير معيارية للإطلاق الفيديو (UCF-101 وKinetics-600) والإطلاق الصوتي (ImageNet) دون الحاجة إلى استخدام التوجيه الحر من الفئة (classifier-free guidance). وأخيرًا، نقوم أيضًا بتدريب سلسلة من ثلاث نماذج لل任務 الخاصة بإنشاء فيديو من نص، تتكوّن من نموذج أساسي للفيديو اللاتيني التوليدي، ونماذجين آخرين لتحسين دقة الفيديو (video super-resolution diffusion models)، بهدف إنتاج مقاطع فيديو بحلّة $512 \times 896$ بكسل وبمعدل 8 إطارات في الثانية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار