HyperAIHyperAI
منذ 11 أيام

الشبكات الخشنة-الدقيقة للكشف عن الأنشطة الزمنية في الفيديوهات

Kumara Kahatapitiya, Michael S. Ryoo
الشبكات الخشنة-الدقيقة للكشف عن الأنشطة الزمنية في الفيديوهات
الملخص

في هذه الورقة، نقدم شبكة كروز-فينا (Coarse-Fine Networks)، وهي معمارية ثنائية التدفق تستفيد من تمايزات مختلفة في الدقة الزمنية لتعلم تمثيلات فيديو أفضل للحركة على المدى الطويل. تُعالج النماذج التقليدية للفيديوهات المدخلات بحلقة زمنية ثابتة واحدة (أو قليلة) دون أي اختيار ديناميكي للإطارات. ومع ذلك، نجادل بأن معالجة عدة دقة زمنية للمدخلات، وبشكل ديناميكي من خلال تعلّم تقدير أهمية كل إطار، يمكن أن يُحسّن بشكل كبير تمثيلات الفيديو، خصوصًا في مجال تحديد الأنشطة الزمنية. لتحقيق هذا الهدف، نقترح (1) "تجميع الشبكة" (Grid Pool)، وهي طبقة تناقص زمني تُتعلم لاستخراج السمات الخشنة، و(2) "الدمج متعدد المراحل" (Multi-stage Fusion)، وهي آلية انتباه فضائي-زمني تُدمج السياق الدقيق مع السمات الخشنة. ونُظهر أن طريقة عملنا تتفوق على أحدث النماذج في كشف الحركات في مجموعات بيانات عامة مثل Charades، مع تقليل كبير في استهلاك الحوسبة والذاكرة. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/kkahatapitiya/Coarse-Fine-Networks

الشبكات الخشنة-الدقيقة للكشف عن الأنشطة الزمنية في الفيديوهات | أحدث الأوراق البحثية | HyperAI