R-C3D: شبكة تلافيفية إقليمية ثلاثية الأبعاد لاكتشاف النشاط الزمني

نتناول مشكلة الكشف عن الأنشطة في تدفقات الفيديو المستمرة وغير المقصوصة. هذه مهمة صعبة تتطلب استخراج خصائص مكانية-زمانية ذات معنى لتقاطع الأنشطة، وتحديد أوقات بدء وانتهاء كل نشاط بدقة. نقدم نموذجًا جديدًا، وهو الشبكة ثلاثية الأبعاد الإقليمية للالتفاف (Region Convolutional 3D Network - R-C3D)، والذي يرمّز تدفقات الفيديو باستخدام شبكة الالتفاف الكاملة ثلاثية الأبعاد، ثم يولد مناطق زمنية مؤقتة تحتوي على أنشطة، وأخيرًا يقوم بتصنيف المناطق المختارة إلى أنشطة محددة. يتم توفير الحساب بسبب مشاركة خصائص الالتفاف بين خطوط العمل المقترحة والتصنيف. يتم تدريب النموذج بأكمله من البداية إلى النهاية مع خسائر تحدد وتصنف بشكل مشترك. يعتبر R-C3D أسرع من الأساليب الموجودة (569 إطارًا في الثانية على بطاقة Titan X Maxwell GPU واحدة) ويحقق أفضل النتائج المتاحة حاليًا على THUMOS'14. كما نثبت أن نموذجنا هو إطار عام للكشف عن الأنشطة لا يعتمد على افتراضات حول خصائص مجموعة البيانات الخاصة، وذلك بتقييم نهجنا على ActivityNet وCharades. رمز البرمجيات الخاص بنا متاح على الرابط http://ai.bu.edu/r-c3d/.