توليد الفيديو المعادي في مجموعات بيانات معقدة

قد تقدمت نماذج التوليد للصور الطبيعية نحو عينات ذات دقة عالية من خلال الاستفادة القوية من الحجم. ونحاول نقل هذا النجاح إلى مجال نمذجة الفيديو بعرض أن شبكات التوليد المتنافسة (GAN) الكبيرة التي تم تدريبها على مجموعة البيانات المعقدة Kinetics-600 قادرة على إنتاج عينات فيديو ذات تعقيد ودقة أعلى بكثير من الأعمال السابقة. يتوسع النموذج المقترح لدينا، وهو نموذج المميز المزدوج للفيديو (DVD-GAN)، ليشمل مقاطع فيديو أطول وأعلى دقة من خلال الاستفادة من تحليل كفاءة الحاسب للمميز الخاص به. قمنا بتقييم الأداء في مهام متعلقة بإنشاء الفيديو وتوقعه، وحققنا أفضل مستوى جديد لمسافة فريشيه للانطلاق (Fréchet Inception Distance) للتوقع في مجموعة بيانات Kinetics-600، بالإضافة إلى أفضل درجة جديدة للانطلاق (Inception Score) لإنشاء الفيديو في مجموعة بيانات UCF-101، مع وضع أساس قوي لإنشاء الفيديو في مجموعة بيانات Kinetics-600.