HyperAIHyperAI
منذ 13 أيام

Snap Video: تحويلات مكانيّة زمنيّة مُدرَجة لتصنيع الفيديو من النص

Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov
Snap Video: تحويلات مكانيّة زمنيّة مُدرَجة لتصنيع الفيديو من النص
الملخص

تُظهر النماذج الحديثة لإنشاء الصور جودةً ملحوظةً وتعددًا وظيفيًا. وتُحفَّز المجتمع البحثي على إعادة توظيف هذه النماذج لإنشاء مقاطع الفيديو. وبما أن محتوى الفيديو يحتوي على تكرارٍ عالٍ، نجادل بأن نقل التطورات المحققة في نماذج الصور مباشرةً إلى مجال إنشاء الفيديو يقلل من دقة الحركة، ويخفض الجودة البصرية، ويؤثر سلبًا على قابلية التوسع. في هذا العمل، نُنشئ نموذج "Snap Video"، وهو نموذج مُصمم خصيصًا للفيديو، ويُعالج هذه التحديات بشكل منهجي. لتحقيق ذلك، نوسع أولاً إطار العمل EDM (EDM) ليعمل مع البكسلات المكررة مكانيًا وزمانيًا، ويدعم بشكل طبيعي إنشاء الفيديو. ثانيًا، نُظهر أن نموذج U-Net - الذي يُعد العمود الفقري لإنجاز إنشاء الصور - لا يُ-scalable جيدًا عند إنشاء الفيديوهات، حيث يتطلب تكاليف حسابية كبيرة. لذا، نقترح معمارية جديدة تعتمد على المُحول (Transformer)، والتي تُدرّب بسرعة تفوق 3.31 مرة مقارنةً بنماذج U-Net (وهي أسرع بحوالي 4.5 مرة أثناء الاستدلال). هذا يمكّننا من تدريب نموذج نص إلى فيديو يحتوي على مليارات المعاملات لأول مرة، وتحقيق نتائج تفوق الحد الأدنى المعاصر على عدد من المعايير، وإنتاج مقاطع فيديو ذات جودة أعلى بشكل ملحوظ، واتساق زمني أفضل، وتعقيد حركي أكبر. أظهرت دراسات المستخدمين أن نموذجنا قد حظي بتفضيل كبير مقارنةً بأحدث الطرق. لمزيد من التفاصيل، يُرجى زيارة موقعنا على الرابط: https://snap-research.github.io/snapvideo/.

Snap Video: تحويلات مكانيّة زمنيّة مُدرَجة لتصنيع الفيديو من النص | أحدث الأوراق البحثية | HyperAI