CAST: الانتباه المتقاطع في الفضاء والزمان لتمييز الأفعال في الفيديو

التعرف على أفعال البشر في مقاطع الفيديو يتطلب فهمًا مكانيًا وزمانيًا. ومع ذلك، فإن معظم النماذج الحالية للتعرف على الأفعال تفتقر إلى فهم متوازن بين البعد المكاني والزماني لمقاطع الفيديو. في هذا البحث، نقترح هندسة جديدة ذات تيارين تسمى "الانتباه المتقاطع في الفضاء والزمان" (CAST)، والتي تحقق فهمًا مكانيًا وزمانيًا متوازنًا لمقاطع الفيديو باستخدام مدخلات RGB فقط. الآلية المقترحة للانتباه المتقاطع في العنق الضيق تمكن النماذج المتخصصة في البعد المكاني والزماني من تبادل المعلومات وإجراء تنبؤات متناسقة، مما يؤدي إلى تحسين الأداء. قمنا بتحقق الطريقة المقترحة من خلال سلسلة من التجارب الواسعة على مقاييس عامة ذات خصائص مختلفة: EPIC-KITCHENS-100، Something-Something-V2، و Kinetics-400. طريقتنا تظهر باستمرار أداءً متفوقًا عبر هذه القواعد البيانات، بينما يختلف أداء الطرق الحالية اعتمادًا على خصائص القاعدة البيانات.