HyperAIHyperAI

Command Palette

Search for a command to run...

إنشاء مقاطع فيديو طويلة باستخدام VQGAN غير المعتمد على الزمن وTransformer حساس للزمن

Songwei Ge Thomas Hayes Harry Yang Xi Yin Guan Pang David Jacobs Jia-Bin Huang Devi Parikh

الملخص

تُستخدم الفيديوهات للتعبير عن المشاعر وتبادل المعلومات ومشاركة التجارب. وقد لاقت عملية توليد الفيديو اهتمامًا كبيرًا من الباحثين على مدى فترة طويلة. وعلى الرغم من التقدم السريع الذي أحرزه التطور في توليد الصور البصرية، فإن معظم الدراسات الحالية تركز على تحسين جودة الإطارات والانتقالات بينها، بينما لم يُحرز تقدم كبير في إنتاج مقاطع فيديو طويلة. في هذا البحث، نقدّم طريقة تعتمد على نموذج 3D-VQGAN والمحولات (Transformers) لإنشاء مقاطع فيديو تتكون من آلاف الإطارات. تُظهر نتائج تقييمنا أن النموذج الذي تم تدريبه على مقاطع فيديو مكوّنة من 16 إطارًا من مجموعات بيانات قياسية مثل UCF-101 وSky Time-lapse وTaichi-HD، قادر على إنتاج مقاطع فيديو طويلة متنوعة، متماسكة، وعالية الجودة. كما نُظهر تطويرات مشروطة لنهجنا تتيح إنشاء مقاطع فيديو طويلة ذات معنى من خلال دمج المعلومات الزمنية مع النصوص والصوت. يمكن العثور على مقاطع الفيديو والكود المصدر على الرابط التالي: https://songweige.github.io/projects/tats/index.html.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp