HyperAIHyperAI

Command Palette

Search for a command to run...

Snap Video: تحويلات مكانيّة زمنيّة مُدرَجة لتصنيع الفيديو من النص

الملخص

تُظهر النماذج الحديثة لإنشاء الصور جودةً ملحوظةً وتعددًا وظيفيًا. وتُحفَّز المجتمع البحثي على إعادة توظيف هذه النماذج لإنشاء مقاطع الفيديو. وبما أن محتوى الفيديو يحتوي على تكرارٍ عالٍ، نجادل بأن نقل التطورات المحققة في نماذج الصور مباشرةً إلى مجال إنشاء الفيديو يقلل من دقة الحركة، ويخفض الجودة البصرية، ويؤثر سلبًا على قابلية التوسع. في هذا العمل، نُنشئ نموذج "Snap Video"، وهو نموذج مُصمم خصيصًا للفيديو، ويُعالج هذه التحديات بشكل منهجي. لتحقيق ذلك، نوسع أولاً إطار العمل EDM (EDM) ليعمل مع البكسلات المكررة مكانيًا وزمانيًا، ويدعم بشكل طبيعي إنشاء الفيديو. ثانيًا، نُظهر أن نموذج U-Net - الذي يُعد العمود الفقري لإنجاز إنشاء الصور - لا يُ-scalable جيدًا عند إنشاء الفيديوهات، حيث يتطلب تكاليف حسابية كبيرة. لذا، نقترح معمارية جديدة تعتمد على المُحول (Transformer)، والتي تُدرّب بسرعة تفوق 3.31 مرة مقارنةً بنماذج U-Net (وهي أسرع بحوالي 4.5 مرة أثناء الاستدلال). هذا يمكّننا من تدريب نموذج نص إلى فيديو يحتوي على مليارات المعاملات لأول مرة، وتحقيق نتائج تفوق الحد الأدنى المعاصر على عدد من المعايير، وإنتاج مقاطع فيديو ذات جودة أعلى بشكل ملحوظ، واتساق زمني أفضل، وتعقيد حركي أكبر. أظهرت دراسات المستخدمين أن نموذجنا قد حظي بتفضيل كبير مقارنةً بأحدث الطرق. لمزيد من التفاصيل، يُرجى زيارة موقعنا على الرابط: https://snap-research.github.io/snapvideo/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp