HyperAIHyperAI
منذ 7 أيام

إنشاء مقاطع فيديو طويلة باستخدام VQGAN غير المعتمد على الزمن وTransformer حساس للزمن

Songwei Ge, Thomas Hayes, Harry Yang, Xi Yin, Guan Pang, David Jacobs, Jia-Bin Huang, Devi Parikh
إنشاء مقاطع فيديو طويلة باستخدام VQGAN غير المعتمد على الزمن وTransformer حساس للزمن
الملخص

تُستخدم الفيديوهات للتعبير عن المشاعر وتبادل المعلومات ومشاركة التجارب. وقد لاقت عملية توليد الفيديو اهتمامًا كبيرًا من الباحثين على مدى فترة طويلة. وعلى الرغم من التقدم السريع الذي أحرزه التطور في توليد الصور البصرية، فإن معظم الدراسات الحالية تركز على تحسين جودة الإطارات والانتقالات بينها، بينما لم يُحرز تقدم كبير في إنتاج مقاطع فيديو طويلة. في هذا البحث، نقدّم طريقة تعتمد على نموذج 3D-VQGAN والمحولات (Transformers) لإنشاء مقاطع فيديو تتكون من آلاف الإطارات. تُظهر نتائج تقييمنا أن النموذج الذي تم تدريبه على مقاطع فيديو مكوّنة من 16 إطارًا من مجموعات بيانات قياسية مثل UCF-101 وSky Time-lapse وTaichi-HD، قادر على إنتاج مقاطع فيديو طويلة متنوعة، متماسكة، وعالية الجودة. كما نُظهر تطويرات مشروطة لنهجنا تتيح إنشاء مقاطع فيديو طويلة ذات معنى من خلال دمج المعلومات الزمنية مع النصوص والصوت. يمكن العثور على مقاطع الفيديو والكود المصدر على الرابط التالي: https://songweige.github.io/projects/tats/index.html.

إنشاء مقاطع فيديو طويلة باستخدام VQGAN غير المعتمد على الزمن وTransformer حساس للزمن | أحدث الأوراق البحثية | HyperAI