HyperAIHyperAI
منذ 9 أيام

شبكة تقوية زمنية متعددة الوسائط للتنبؤ بالإجراءات في مقاطع الفيديو ذات النظرة الذاتية

Olga Zatsarynna, Yazan Abu Farha, Juergen Gall
شبكة تقوية زمنية متعددة الوسائط للتنبؤ بالإجراءات في مقاطع الفيديو ذات النظرة الذاتية
الملخص

تُعد مُقدَّمة التصرفات البشرية مهمةً تُستَكشَف لتطوير وكالات ذكية موثوقة، مثل السيارات ذاتية القيادة أو المساعدين الروبوتية. في حين أن القدرة على إجراء تنبؤات دقيقة بشأن المستقبل أمر بالغ الأهمية لتصميم طرق التنبؤ، فإن السرعة التي تُنفَّذ بها عملية الاستنتاج لا تقل أهمية. فالمُنهَجات التي تكون دقيقة لكنها غير كافية السرعة ستؤدي إلى تأخير كبير في عملية اتخاذ القرار، مما يزيد من وقت استجابة النظام الأساسي. وهذا يُشكّل مشكلة في مجالات مثل القيادة الذاتية، حيث يُعد وقت الاستجابة أمرًا حاسمًا. في هذا العمل، نُقدّم معمارية متعددة الأوضاع بسيطة وفعّالة تعتمد على التحويلات الزمنية. تُركّب طريقة التنبؤ لدينا هرمًا من طبقات التحويل الزمني دون الاعتماد على الطبقات التكرارية، مما يضمن سرعة في التنبؤ. ونُقدّم أيضًا آلية دمج متعددة الأوضاع تُسجِّل التفاعلات الزوجية بين الأوضاع البصرية (RGB)، وحالة التدفق (flow)، والأوضاع الكائنية (object). تُظهر النتائج على مجموعتي بيانات كبيرتين من مقاطع الفيديو ذات النظرة الذاتية، EPIC-Kitchens-55 وEPIC-Kitchens-100، أن طريقة التنبؤ لدينا تحقق أداءً مُComparable مع أفضل الطرق الحالية، مع كونها أسرع بشكل ملحوظ.