التنبؤ بالفيديو العدواني القائم على التحويل على بيانات ضخمة

أدى التقدم الأخير في النمذجة التوليدية المضادة إلى تطوير نماذج قادرة على إنتاج عينات فيديو عالية الجودة، حتى على مجموعات بيانات كبيرة ومعقدة من الفيديو الواقعية. في هذا العمل، نركّز على مهمة توقع الفيديو، حيث يكون الهدف من إعطاء تسلسل من الإطارات المستخرجة من فيديو هو إنتاج تسلسل مستقبلي مُقنع. نبدأ بتحسين الحد الأقصى الممكن من الأداء من خلال دراسة تجريبية منهجية لتفكيك المُميّز (discriminator)، ونُقدّم معمارية تُحقّق تقاربًا أسرع وأداءً أعلى من الطرق السابقة. ثم نحلل الوحدات المتكررة (recurrent units) في المُولّد، ونُقدّم وحدة متكررة جديدة تقوم بتحويل حالته الخفية السابقة وفقًا لميزات مُتنبّئة بالحركة، وتحسّنها لمعالجة الظلال المُتغيرة (dis-occlusions) والتغيرات في المشهد والسلوكيات المعقدة الأخرى. نُظهر أن هذه الوحدة المتكررة تتفوّق باستمرار على التصاميم السابقة. يُؤدّي نموذجنا النهائي إلى تقدّم كبير في أداء الحد الأقصى الممكن، حيث يُحقّق بعدًا فريشيت للفيديو (Frechet Video Distance) قدره 25.7 على مجموعة بيانات كينيتكس-600 الكبيرة، مقارنةً بـ 69.2 في الأداء السابق.