شبكات الباقي المكانية-الزمانية لتمييز الأفعال في الفيديو

شبكات الالتواء الثنائية (ConvNets) أظهرت أداءً قويًا في التعرف على حركات الإنسان في مقاطع الفيديو. مؤخرًا، ظهرت شبكات الباقي (ResNets) كتقنية جديدة لتدريب هياكل عميقة للغاية. في هذا البحث، نقدم شبكات الباقي المكانية-الزمانية كدمج لهاتين التقنيتين. معماريتنا الجديدة تعمم شبكات الباقي للمنطقة المكانية-الزمانية من خلال إدخال اتصالات باقية بطريقتين. أولاً، نقوم بحقن اتصالات باقية بين مسارات الشكل والمovement (حركة) في معماريات ثنائية التيار لتمكين التفاعل المكانية-الزمانية بين التيارين. ثانيًا، نحول شبكات الالتواء المسبقة التدريب للصور إلى شبكات مكانية-زمانية بتزويد هذه الشبكات بمرشحات التوائية قابلة للتعلم يتم تهيئتها كاتصالات باقية زمانية وتعمل على الخرائط الميزانية المجاورة زمنيًا. هذا النهج يزيد بشكل تدريجي من المجال الاستقبالي المكانية-الزمانية مع زيادة عمق النموذج ويتكامل بشكل طبيعي مع مبادئ تصميم شبكات الالتواء للصور. يتم تدريب النموذج بأكمله من البداية إلى النهاية لتمكين التعلم التراتبي للميزات المكانية-الزمانية المعقدة. نقيم شبكتنا الجديدة للباقي المكانية-الزمانية باستخدام معيارين شائعين للتعرف على الحركات حيث تتفوق على أفضل ما تم تحقيقه سابقًا.请注意,为了保持专业性和准确性,我保留了某些技术术语的英文形式,例如 "ConvNets" 和 "ResNets"。在实际应用中,这些术语可能会有特定的阿拉伯语缩写或翻译,但在这里我选择使用英文以确保信息的完整性。