HyperAIHyperAI
منذ 9 أيام

MSPred: التنبؤ بالفيديو على مقياس متعدد الزماني والمكانية باستخدام شبكات متكررة هرمية

Angel Villar-Corrales, Ani Karapetyan, Andreas Boltres, Sven Behnke
MSPred: التنبؤ بالفيديو على مقياس متعدد الزماني والمكانية باستخدام شبكات متكررة هرمية
الملخص

لا تحتاج الأنظمة المستقلة فقط إلى فهم البيئة الحالية، بل يجب أن تكون قادرة أيضًا على التنبؤ بالإجراءات المستقبلية بناءً على الحالات السابقة، مثلًا استنادًا إلى الإطارات الملتقطة بواسطة الكاميرات. ومع ذلك، تركز النماذج الحالية بشكل رئيسي على توقع إطارات الفيديو المستقبلية في نطاق زمني قصير، مما يجعلها محدودة الفائدة في التخطيط للإجراءات على المدى الطويل. نقترح نموذج التنبؤ الهرمي متعدد المقياس (MSPred)، وهو نموذج جديد لتنبؤ الفيديو قادر على توقع النتائج المستقبلية الممكنة على مستويات مختلفة من التفصيل في مقياس مكاني وزماني متعدد. من خلال دمج التناقص المكاني والزماني، يُمكن لـ MSPred التنبؤ بكفاءة بتمثيلات مجردة مثل وضعيات البشر أو مواقعهم على مدى زمني طويل، مع الحفاظ على أداء تنافسي في توقع إطارات الفيديو. في تجاربنا، نُظهر أن MSPred يتنبأ بدقة بإطارات الفيديو المستقبلية، وكذلك بتمثيلات عالية المستوى (مثل النقاط المفتاحية أو الدلالات) على مجموعات بيانات تجميع الأصناف (bin-picking) وتمييز الإجراءات، مع تفوقه بشكل ثابت على الطرق الشائعة في توقع الإطارات المستقبلية. علاوة على ذلك، قمنا بتحليل مختلف الوحدات واختيارات التصميم في MSPred، وثبت تجريبيًا أن دمج الميزات ذات التفاصيل المكانية والزمنية المختلفة يؤدي إلى أداء متفوق. يمكن العثور على الشيفرة والنماذج اللازمة لإعادة تجربتنا في الرابط التالي: https://github.com/AIS-Bonn/MSPred.