إنشاء مقاطع فيديو طويلة باستخدام VQGAN غير المعتمد على الزمن وTransformer حساس للزمن

تُستخدم الفيديوهات للتعبير عن المشاعر وتبادل المعلومات ومشاركة التجارب. وقد لاقت عملية توليد الفيديو اهتمامًا كبيرًا من الباحثين على مدى فترة طويلة. وعلى الرغم من التقدم السريع الذي أحرزه التطور في توليد الصور البصرية، فإن معظم الدراسات الحالية تركز على تحسين جودة الإطارات والانتقالات بينها، بينما لم يُحرز تقدم كبير في إنتاج مقاطع فيديو طويلة. في هذا البحث، نقدّم طريقة تعتمد على نموذج 3D-VQGAN والمحولات (Transformers) لإنشاء مقاطع فيديو تتكون من آلاف الإطارات. تُظهر نتائج تقييمنا أن النموذج الذي تم تدريبه على مقاطع فيديو مكوّنة من 16 إطارًا من مجموعات بيانات قياسية مثل UCF-101 وSky Time-lapse وTaichi-HD، قادر على إنتاج مقاطع فيديو طويلة متنوعة، متماسكة، وعالية الجودة. كما نُظهر تطويرات مشروطة لنهجنا تتيح إنشاء مقاطع فيديو طويلة ذات معنى من خلال دمج المعلومات الزمنية مع النصوص والصوت. يمكن العثور على مقاطع الفيديو والكود المصدر على الرابط التالي: https://songweige.github.io/projects/tats/index.html.