HyperAIHyperAI
منذ 2 أشهر

شبكة اقليمية تلافيفية ثلاثية الأبعاد ذات مسارين للكشف عن النشاط الزمني

Huijuan Xu; Abir Das; Kate Saenko
شبكة اقليمية تلافيفية ثلاثية الأبعاد ذات مسارين للكشف عن النشاط الزمني
الملخص

نتناول مشكلة اكتشاف النشاط الزمني في تدفقات الفيديو المستمرة والغير مقصوصة. هذه مهمة صعبة تتطلب استخراج خصائص مكانية-زمنية ذات معنى لتقديم الصور الحركية، وتحديد أوقات بدء وانتهاء كل نشاط بدقة. نقدم نموذجًا جديدًا، وهو الشبكة الإقليمية المُكَعَّبة الثلاثية الأبعاد (R-C3D)، الذي يرمّز تدفقات الفيديو باستخدام شبكة كاملة التحويل ثلاثية الأبعاد، ثم يولد مناطق زمنية مرشحة تحتوي على نشاطات وأخيرًا يقوم بتصنيف المناطق المختارة إلى نشاطات محددة. يتم توفير الحساب بسبب تقاسم الخصائص التحويلية بين خطوط العمل المقترحة والتصنيف. نحسن أداء الاكتشاف بشكل أكبر من خلال دمج كفاءة تيار الحركة القائم على التدفق البصري مع التيار الأصلي RGB. يتم تحسين الشبكة ثنائية التيار بشكل مشترك عن طريق دمج خرائط الخصائص للتدفق وRGB على مستويات مختلفة. بالإضافة إلى ذلك، يتم دمج استراتيجية التنقيب عبر الأمثلة الصعبة عبر الإنترنت في مرحلة التدريب لمعالجة عدم التوازن الشديد بين المقدمة والخلفية الذي يُلاحظ عادةً في أي خط اكتشاف. بدلاً من اختيار العينات المرشحة بطريقة تقديرية للمرحلة النهائية لتصنيف النشاط، نقوم بترتيبها حسب أدائها واختيار الأسوأ فقط لتحديث النموذج. هذا يحسن النموذج دون الحاجة إلى ضبط كبير للمعلمات الفائقة. تم إجراء تجارب واسعة على ثلاثة مجموعات بيانات معيارية لإظهار الأداء المتفوق على طرق اكتشاف النشاط الزمني الموجودة حاليًا. يحقق نموذجنا أفضل النتائج حتى الآن على مجموعتي بيانات THUMOS'14 وCharades. كما نثبت أن نموذجنا هو إطار عام لاكتشاف النشاط الزمني ولا يعتمد على فرضيات حول خصائص مجموعة البيانات الخاصة بالتطبيق من خلال تقييم منهجيتنا على مجموعة بيانات ActivityNet.