المحاورات التلقائية التباينية الهرمية الطموحة للتنبؤ بالفيديوهات على نطاق واسع

نموذج تنبؤ بالفيديو قادر على التعميم على مشاهد متنوعة يمكن أن يمكّن الوكلاء الذكيين مثل الروبوتات من أداء مجموعة متنوعة من المهام من خلال التخطيط باستخدام هذا النموذج. ومع ذلك، فإن النماذج الحالية لتنبؤ الفيديو قد حققت نتائج واعدة على مجموعات بيانات صغيرة، لكنها تعاني من تقليل شديد في التكيف (underfitting) عند تدريبها على مجموعات بيانات كبيرة ومتنوعة. ولحل تحدي هذا التقليل في التكيف، نلاحظ أولًا أن قدرة تدريب نماذج تنبؤ بالفيديو الأكبر غالبًا ما تكون محدودة بقيود الذاكرة في وحدات معالجة الرسومات (GPUs) أو وحدات معالجة التعلم العميق (TPUs). وفي نفس الوقت، يمكن لنماذج المتغيرات المخفية الهرمية العميقة أن تنتج تنبؤات ذات جودة أعلى من خلال التقاط الطبيعة العشوائية متعددة المستويات للملاحظات المستقبلية، لكن عملية التحسين من النهاية إلى النهاية (end-to-end) لهذه النماذج تكون صعبة بشكل ملحوظ. ويكمن رؤيتنا الأساسية في أن التحسين الجشع والمنفصل (modular) لنماذج المُشفِّر التلقائي الهرمية يمكنه في آنٍ واحد أن يعالج كلتا المشكلتين: قيود الذاكرة وصعوبات التحسين في نماذج تنبؤ الفيديو على نطاق واسع. نقدّم نموذج "المُشفِّر التلقائي الهرمي الجشع" (Greedy Hierarchical Variational Autoencoders - GHVAEs)، وهي طريقة تتعلم تنبؤات فيديو عالية الدقة من خلال تدريب كل مستوى من مستويات المُشفِّر التلقائي الهرمي بشكل جشع. مقارنةً بالنماذج الرائدة حاليًا، تُظهر نماذج GHVAEs تحسنًا بنسبة 17-55% في أداء التنبؤ على أربع مجموعات بيانات فيديو، ونسبة نجاح أعلى بنسبة 35-40% في مهام روبوتات حقيقية، ويمكنها تحسين الأداء بشكل متزايد باستمرار من خلال إضافة المزيد من الوحدات.