HyperAIHyperAI
منذ 9 أيام

تعلم التنبؤ بالإجراءات الإيغوسنتريكية من خلال التخيل

Yu Wu, Linchao Zhu, Xiaohan Wang, Yi Yang, Fei Wu
تعلم التنبؤ بالإجراءات الإيغوسنتريكية من خلال التخيل
الملخص

التوقع المسبق للإجراءات قبل تنفيذها يُعد أمرًا بالغ الأهمية لعدد واسع من التطبيقات العملية، بما في ذلك القيادة الذاتية والروبوتات. في هذه الورقة، ندرس مهمة توقع الإجراءات من منظور الذات (egocentric action anticipation)، التي تهدف إلى التنبؤ بالإجراءات المستقبلية قبل تنفيذها بثوانٍ في مقاطع الفيديو ذات المنظور الذاتي. اعتمدت الطرق السابقة على تلخيص المحتوى المُشاهد مباشرةً والتنبؤ بالإجراء المستقبلي بناءً على الملاحظات السابقة. نعتقد أن تحسين توقع الإجراء سيكون ممكنًا إذا تم استخلاص بعض المؤشرات لتعويض المعلومات المفقودة في الإطارات غير المرئية. لذلك، نقترح تفكيك مهمة توقع الإجراء إلى سلسلة من توقعات الميزات المستقبلية. نتخيل كيف ستتغير الميزات البصرية في المستقبل القريب، ثم نتنبأ بفئات الإجراءات المستقبلية بناءً على هذه التمثيلات الوهمية. على عكس النهج السابق، يتم تحسين نموذجنا "ImagineRNN" باستخدام التعلم التبايني (contrastive learning) بدلًا من الانحدار في الميزات. نستخدم مهمة بديلة (proxy task) لتدريب ImagineRNN، وهي اختيار الحالة المستقبلية الصحيحة من بين معايير مضللة (distractors). ونُحسّن أيضًا ImagineRNN من خلال تقنية التوقع المتكرر (residual anticipation)، أي تغيير الهدف إلى التنبؤ بفرق الميزات بين الإطارات المتتالية بدلًا من محتوى الإطار نفسه. وهذا يشجع الشبكة على التركيز على هدفنا الأساسي، أي توقع الإجراء المستقبلي، لأن الفرق بين ميزات الإطارات المتتالية يكون أكثر أهمية في التنبؤ بالمستقبل. وقد أثبتت التجارب الواسعة على مجموعتي بيانات كبيرتين لتطبيقات توقع الإجراءات ذات المنظور الذاتي فعالية طريقة العمل لدينا. وتتفوق طريقة العمل لدينا بشكل ملحوظ على الطرق السابقة في كلا المجموعتين: المجموعة المرئية (seen test set) والمجموعة غير المرئية (unseen test set) ضمن مسابقة توقع الإجراءات في EPIC Kitchens.

تعلم التنبؤ بالإجراءات الإيغوسنتريكية من خلال التخيل | أحدث الأوراق البحثية | HyperAI