شبكة الوحدة الزمنية للانحدار لاقتراحات الأفعال الزمنية: TURN TAP

توليد اقتراحات الأحداث الزمنية (TAP) هو مشكلة مهمة، حيث يعتبر استخراج المقاطع ذات الأهمية الدلالية (مثل أفعال البشر) بسرعة ودقة من مقاطع الفيديو غير المقصوصة خطوة أساسية لتحليل الفيديو على نطاق واسع. نقترح نموذج شبكة الانحدار الوحدوية الزمنية (TURN) الجديد. هناك جوانب بارزةان في TURN: (1) يتنبأ TURN بتقديم الأفعال ويحسن الحدود الزمنية من خلال الانحدار الإحداثي الزمني؛ (2) يتم تمكين الحساب السريع من خلال إعادة استخدام ميزات الوحدة: يتم تحليل فيديو طويل غير مقصوص إلى وحدات فيديو، والتي يتم إعادة استخدامها ككتل بنائية أساسية للاقتراحات الزمنية. يتفوق TURN بشكل كبير على الطرق الرائدة في المجال تحت متوسط الاستدعاء (AR) في مجموعة بيانات THUMOS-14 وActivityNet، ويبلغ معدل تشغيله أكثر من 880 إطارًا في الثانية (FPS) على معالج GPU TITAN X. نقوم أيضًا بتطبيق TURN كمرحلة لتوليد الاقتراحات للأنابيب الرائدة حاليًا في تحديد موقع الأفعال الزمنية، حيث يتفوق على أداء الطرق الرائدة في المجال على مجموعة بيانات THUMOS-14 وActivityNet.