HyperAIHyperAI
منذ 8 أيام

FitVid: التعلّم الزائد في التنبؤ بالفيديو على مستوى البكسل

Mohammad Babaeizadeh, Mohammad Taghi Saffar, Suraj Nair, Sergey Levine, Chelsea Finn, Dumitru Erhan
FitVid: التعلّم الزائد في التنبؤ بالفيديو على مستوى البكسل
الملخص

الوكيل القادر على التنبؤ بما سيحدث لاحقًا يمكنه أداء مجموعة متنوعة من المهام من خلال التخطيط دون الحاجة إلى تدريب إضافي. علاوةً على ذلك، يمكن لهذا الوكيل تمثيل الديناميات المعقدة للعالم الحقيقي داخليًا، وبالتالي يمكنه اكتساب تمثيل مفيد لعدة مهام استشعار بصري. هذا يجعل التنبؤ بالإطارات المستقبلية للفيديو، مع الأخذ بعين الاعتبار الماضي المُلاحظ وربما الإجراءات المستقبلية، مهمة مثيرة للاهتمام، رغم التقدم الكبير الأخير، تبقى هذه المهمة تحديًا استثنائيًا. أظهرت نماذج التنبؤ بالفيديو الحالية نتائج واعدة في المعايير البسيطة الضيقة، لكنها تنتج تنبؤات منخفضة الجودة على مجموعات بيانات حقيقية ذات ديناميات أكثر تعقيدًا أو نطاقًا أوسع. هناك عدد متزايد من الأدلة التي تشير إلى أن التقليل من التكيف مع بيانات التدريب (underfitting) هو أحد الأسباب الرئيسية لجودة التنبؤ المنخفضة. في هذا البحث، نجادل بأن الاستخدام غير الفعّال للبارامترات في النماذج الحالية للفيديو هو السبب الرئيسي للتقليل من التكيف. لذلك، نقدم معمارية جديدة تُسمى FitVid، التي تتمتع بقدرة على التكيف الشديد (overfitting) مع المعايير الشائعة، مع الحفاظ على عدد بارامترات مشابه للنماذج الرائدة الحالية. نحلل عواقب التكيف الشديد، ونوضح كيف يمكن أن تؤدي إلى نتائج غير متوقعة مثل إنتاج مخرجات عالية الجودة من خلال تكرار بيانات التدريب، وكيف يمكن تخفيفها باستخدام تقنيات التحويل الصوري الحالية. نتيجة لذلك، تتفوق FitVid على النماذج الرائدة الحالية في أربع معايير مختلفة لتنبؤ الفيديو، على أربع معايير مختلفة.

FitVid: التعلّم الزائد في التنبؤ بالفيديو على مستوى البكسل | أحدث الأوراق البحثية | HyperAI