الانتباه هو كل ما نحتاجه: تحديد الانتباه المتمركز حول الكائنات للاعتراف بالأنشطة الذاتية

في هذه الورقة، نقترح نموذج شبكة عصبية عميقة قابل للتدريب من البداية إلى النهايةللاعتراف بأنشطة المنظور الذاتي. يعتمد نموذجنا على الملاحظة أنأنشطة المنظور الذاتي تتميز بشكل كبير بالأشياء ومواقعها في الفيديو. استنادًا إلى هذا، طورنا آلية انتباه مكانيتتيح للشبكة التركيز على المناطق التي تحتوي على الأشياء المرتبطة بالنشاط المعني. نتعلم خرائط انتباه متخصصة للغاية لكل إطار باستخدام التنشيطات الخاصة بالفئة من شبكة CNN تم تدريبها مسبقًا للاعتراف بالصور العامة، ونستخدمها لترميز الفيديو بمكونات زمانية-مكانية باستخدام LSTM التلافيفي (Convolutional LSTM). يتم تدريب نموذجنا في بيئة إشراف ضعيف باستخدام ملصقات فئات الأنشطة على مستوى الفيديو الخام.ومع ذلك، فإن نموذجنا يتفوق في دقة الاعتراف بأكثر من 6 نقاط مئوية على أفضل الطُرق الحالية التي تستفيد من تقسيم اليدين والرقابة القوية لمواقع الأشياء أثناء التدريب. قمنا بتحليل بصري لخرائط الانتباه التي أنتجتها الشبكة،موضحين أن الشبكة تنجح في تحديد الأشياء ذات الصلة الموجودة في إطارات الفيديو، مما قد يفسر أدائها القوي في الاعتراف. كما نناقش تحليل الإلغاء الواسع النطاق حول الخيارات التصميمية.