HyperAIHyperAI

Command Palette

Search for a command to run...

المحاورات التلقائية التباينية الهرمية الطموحة للتنبؤ بالفيديوهات على نطاق واسع

Bohan Wu Suraj Nair Roberto Martin-Martin Li Fei-Fei Chelsea Finn

الملخص

نموذج تنبؤ بالفيديو قادر على التعميم على مشاهد متنوعة يمكن أن يمكّن الوكلاء الذكيين مثل الروبوتات من أداء مجموعة متنوعة من المهام من خلال التخطيط باستخدام هذا النموذج. ومع ذلك، فإن النماذج الحالية لتنبؤ الفيديو قد حققت نتائج واعدة على مجموعات بيانات صغيرة، لكنها تعاني من تقليل شديد في التكيف (underfitting) عند تدريبها على مجموعات بيانات كبيرة ومتنوعة. ولحل تحدي هذا التقليل في التكيف، نلاحظ أولًا أن قدرة تدريب نماذج تنبؤ بالفيديو الأكبر غالبًا ما تكون محدودة بقيود الذاكرة في وحدات معالجة الرسومات (GPUs) أو وحدات معالجة التعلم العميق (TPUs). وفي نفس الوقت، يمكن لنماذج المتغيرات المخفية الهرمية العميقة أن تنتج تنبؤات ذات جودة أعلى من خلال التقاط الطبيعة العشوائية متعددة المستويات للملاحظات المستقبلية، لكن عملية التحسين من النهاية إلى النهاية (end-to-end) لهذه النماذج تكون صعبة بشكل ملحوظ. ويكمن رؤيتنا الأساسية في أن التحسين الجشع والمنفصل (modular) لنماذج المُشفِّر التلقائي الهرمية يمكنه في آنٍ واحد أن يعالج كلتا المشكلتين: قيود الذاكرة وصعوبات التحسين في نماذج تنبؤ الفيديو على نطاق واسع. نقدّم نموذج "المُشفِّر التلقائي الهرمي الجشع" (Greedy Hierarchical Variational Autoencoders - GHVAEs)، وهي طريقة تتعلم تنبؤات فيديو عالية الدقة من خلال تدريب كل مستوى من مستويات المُشفِّر التلقائي الهرمي بشكل جشع. مقارنةً بالنماذج الرائدة حاليًا، تُظهر نماذج GHVAEs تحسنًا بنسبة 17-55% في أداء التنبؤ على أربع مجموعات بيانات فيديو، ونسبة نجاح أعلى بنسبة 35-40% في مهام روبوتات حقيقية، ويمكنها تحسين الأداء بشكل متزايد باستمرار من خلال إضافة المزيد من الوحدات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
المحاورات التلقائية التباينية الهرمية الطموحة للتنبؤ بالفيديوهات على نطاق واسع | مستندات | HyperAI