CDC: شبكات التلافيف والتفكيك التلافيفي لتحديد مواقع الأحداث الزمنية بدقة في مقاطع الفيديو غير المقصوصة

تحديد الأفعال الزمني هو مشكلة مهمة ومعقدة. نظراً لوجود فيديو طويل غير مقصوص يتكون من عدة حالات لأفعال ومحتويات خلفية معقدة، فإنه ليس فقط يجب علينا التعرف على فئات هذه الأفعال، بل أيضاً تحديد وقت البدء ووقت النهاية لكل حالة. العديد من أنظمة الطليعة تستخدم تصنيفات على مستوى القطع لاختيار وتقييم المقترحات ذات الحدود المحددة مسبقاً. ومع ذلك، فإن النموذج المثالي يجب أن يتجاوز مستوى القطع ويقوم بتنبؤات كثيفة بدقة زمنية دقيقة لتحديد الحدود الزمنية بدقة. لهذا الغرض، قمنا بتصميم شبكة جديدة من نوع Convolutional-De-Convolutional (CDC) التي تضع مرشحات CDC فوق شبكات 3D ConvNets، والتي أثبتت فعاليتها في استخلاص معاني الأفعال ولكنها تقلل من طول البيانات الزمنية للبيانات الإدخال. يقوم المرشح CDC المقترح بأداء عمليات التكبير الزمني والتصغير المكاني بشكل متزامن للتنبؤ بالأفعال بدقة المستوى الإطاري (frame-level). يتميز هذا المرشح بقدرته على نمذجة معاني الأفعال في الزمان والمكان والديناميكيات الزمنية الدقيقة بشكل مشترك. نقوم بتدريب الشبكة CDC بطريقة شاملة وكفاءة عالية. لا يقتصر نموذجنا على تحقيق أداء متفوق في اكتشاف الأفعال في كل إطار، بل يعزز أيضاً دقة تحديد الحدود الزمنية بشكل كبير. وأخيراً، تظهر الشبكة CDC كفاءة عالية جداً حيث يمكنها معالجة 500 إطار في الثانية الواحدة على خادم GPU واحد. سنقوم قريبًا بتحديث النسخة الجاهزة للتصوير ونشر الكود المصدر عبر الإنترنت.