إعادة النظر في التخطيطات المكانية-الزمنية للتعرف على الإجراءات التوليفية

تمييز الأفعال البشرية يُعد بشكل أساسي مشكلة استدلال فضائي-زمني، ويجب أن يكون، على الأقل إلى حد ما، مستقرًا تجاه مظهر الإنسان والكائنات المشاركة. مستوحى من هذا الفرضية، نتبع في هذا العمل نهجًا متمحورًا حول الكائنات في تمييز الأفعال. لقد درست العديد من الدراسات هذا السياق سابقًا، لكن ما يزال غير واضح (أ) إلى أي مدى يمكن لطريقة مصممة بعناية تعتمد على التخطيط الفضائي-الزمني أن تميز الأفعال البشرية، و(ب) كيف، ومتى، ينبغي دمج المعلومات المستمدة من النماذج القائمة على التخطيط مع تلك القائمة على المظهر. يركّز هذا البحث بشكل رئيسي على تمييز الأفعال التجميعية/النادرة (few-shot)، حيث ندعو إلى استخدام انتباه متعدد الرؤوس (الذي أثبت فعاليته في الاستدلال المكاني) على التخطيطات الفضائية-الزمنية، أي تكوينات مربعات الحدود الخاصة بالكائنات. نقوم بتقييم مختلف النماذج لدمج معلومات مظهر الفيديو في النظام، ونُقدّم معيارًا مقارنًا لنهجنا في تمييز الأفعال في بيئات مزدحمة بالخلفية. على مجموعتي بيانات Something-Else وAction Genome، نُظهر (أ) كيف يمكن توسيع استخدام انتباه متعدد الرؤوس لتمييز الأفعال القائمة على التخطيط الفضائي-الزمني، (ب) كيف يمكن تحسين أداء النماذج القائمة على المظهر من خلال دمجها مع النماذج القائمة على التخطيط، (ج) أن حتى في مجموعات بيانات فيديو غير تجميعية ومحفّزة بالخلفية، فإن الدمج بين النماذج القائمة على التخطيط والنموذج القائم على المظهر يُحسّن الأداء.