مُحَوِّل البصرية لمنطقة التفاعل للتنبؤ بالإجراءات من منظور ذاتي

تُعد التفاعل البشري-الكائن أحد أهم المؤشرات البصرية، ونُقدّم طريقة جديدة لتمثيل التفاعلات البشرية-الكائنية بهدف التنبؤ بالإجراءات من منظور شخصي (egocentric). نقترح نسخة مُعدّلة من نموذج الترانسفورمر لتمثيل هذه التفاعلات من خلال حساب التغيرات في مظهر الكائنات والأيدي البشرية الناتجة عن تنفيذ الإجراءات، واستخدام هذه التغيرات لتحسين تمثيل الفيديو. وبشكل خاص، نُمثّل التفاعلات بين الأيدي والكائنات باستخدام الانتباه المتقاطع المكاني (Spatial Cross-Attention - SCA)، ثم نُضفي معلومات سياقية إضافية باستخدام الانتباه المتقاطع للمسار (Trajectory Cross-Attention) للحصول على رموز تفاعل مُحسّنة بناءً على البيئة. باستخدام هذه الرموز، نُنشئ تمثيلًا مركّزًا حول التفاعل للفيديو بهدف التنبؤ بالإجراءات. ونُسمّي نموذجنا InAViT، والذي حقق أداءً متقدمًا على مستوى العالم في التنبؤ بالإجراءات على مجموعات بيانات كبيرة من الفيديو الشخصي مثل EPICKTICHENS100 (EK100) وEGTEA Gaze+. وتفوّق InAViT على الطرق الأخرى القائمة على نماذج الترانسفورمر، بما في ذلك النماذج التي تعتمد على تمثيل الفيديو المركّز حول الكائنات. وعلى خادم تقييم EK100، كان InAViT هو النموذج الأفضل في قائمة التصنيف العامة (في وقت التقديم)، حيث تفوّق على النموذج الثاني بأكثر من 3.3% في متوسط دقة التذكر عند المرتبة الخامسة (mean-top5 recall).