إطلاق الفيديو الواقعية مع نماذج التباعد

نقدّم W.A.L.T، وهي منهجية تعتمد على النموذج التحويلي (Transformer) لإنشاء مقاطع فيديو واقعية بصريًا من خلال نمذجة الانتشار (Diffusion Modeling). يعتمد منهجنا على قرارين رئيسيين في التصميم. أولاً، نستخدم مشفرًا سببيًا (causal encoder) لضغط الصور والفيديوهات معًا داخل فضاء لاتيني موحد، مما يمكّن من التدريب والإنشاء عبر الوسائط المختلفة. ثانيًا، لتحسين كفاءة الذاكرة والتدريب، نستخدم بنية انتباه نافذة (window attention architecture) مصممة خصيصًا للنمذجة التوليدية المكانية والزمنية المتكاملة. وباتخاذ هذه القرارات التصميمية معًا، نتمكن من تحقيق أداءً متميزًا على معايير معيارية للإطلاق الفيديو (UCF-101 وKinetics-600) والإطلاق الصوتي (ImageNet) دون الحاجة إلى استخدام التوجيه الحر من الفئة (classifier-free guidance). وأخيرًا، نقوم أيضًا بتدريب سلسلة من ثلاث نماذج لل任務 الخاصة بإنشاء فيديو من نص، تتكوّن من نموذج أساسي للفيديو اللاتيني التوليدي، ونماذجين آخرين لتحسين دقة الفيديو (video super-resolution diffusion models)، بهدف إنتاج مقاطع فيديو بحلّة $512 \times 896$ بكسل وبمعدل 8 إطارات في الثانية.