توسيع نماذج الفيديو ذات الترتيب الذاتي

بسبب التعقيد الإحصائي للفيديو، درجة عالية من العشوائية المتأصلة، وكثافة البيانات الهائلة، لا يزال إنتاج الفيديو الطبيعي مهمة صعبة. تسعى النماذج الرائدة لإنتاج الفيديو غالبًا إلى معالجة هذه القضايا من خلال الجمع بين هياكل شبكات عصبية معقدة ومحددة للفيديو في بعض الأحيان، ونماذج المتغيرات الكامنة، والتدريب المعادي (adversarial training) وطيف واسع من الأساليب الأخرى. رغم تعقيدها العالي غالبًا، فإن هذه النماذج لا تزال تفتقر إلى إنتاج استمرارات فيديو ذات جودة عالية خارج المجالات الضيقة وتواجه صعوبات في الحفاظ على الدقة. بالمقابل، نظهر أن النماذج البسيطة مفهوميًا لإنتاج الفيديو المستندة إلى آلية الانتباه الذاتي ثلاثية الأبعاد تحقق نتائج تنافسية عبر عدة مقاييس على مجموعات بيانات مرجعية شائعة، حيث تنتج استمرارات ذات دقة وواقعية عالية. كما نقدم أيضًا نتائج التدريب لنماذجنا على Kinetics، وهي مجموعة بيانات كبيرة الحجم لتحديد الأفعال تتكون من مقاطع فيديو على YouTube تعرض ظواهر مثل حركة الكاميرا، التفاعلات المعقدة للأجسام والمovements البشرية المتنوعة. بينما ما زالت نمذجة هذه الظواهر بشكل مستمر بعيدة المنال، فإننا نأمل أن تشجع نتائجنا التي تتضمن أحيانًا استمرارات واقعية على المزيد من البحث حول مجموعات بيانات كبيرة ومعقدة نسبيًا مثل Kinetics.