TriDet: الكشف عن الإجراءات الزمنية مع نمذجة الحدود النسبية

في هذه الورقة، نقدم إطارًا أحادي المرحلة يُدعى TriDet للكشف عن الأفعال الزمنية. تُعاني الطرق الحالية غالبًا من توقعات غير دقيقة لحدود الأفعال بسبب غموض حدود الأفعال في مقاطع الفيديو. وللتخفيف من هذه المشكلة، نقترح رأسًا جديدًا يُسمى Trident-head لتمثيل حدود الفعل من خلال توزيع احتمالي نسبي مقدر حول الحدود. وفي هرم الميزات الخاص بـ TriDet، نقترح طبقة فعالة تُسمى Perception بدرجة تكيفية قابلة للتوسع (SGP) لتقليل مشكلة فقدان الرتبة الناتجة عن الانتباه الذاتي التي تحدث في ميزات الفيديو، بالإضافة إلى جمع المعلومات عبر درجات زمنية مختلفة. وبفضل الرأس Trident-head وهرم الميزات المستند إلى SGP، يحقق TriDet أداءً متقدمًا على مستوى الحالة في ثلاث بيئات صعبة: THUMOS14 وHACS وEPIC-KITCHENS 100، مع تكاليف حسابية أقل مقارنة بالطرق السابقة. على سبيل المثال، يحقق TriDet متوسط دقة تقييم (mAP) قدره 69.3% على THUMOS14، متفوقًا على أفضل نتيجة سابقة بنسبة 2.5%، مع استهلاك فقط 74.6% من زمن التأخير الخاص بها. تم إصدار الكود على الرابط التالي: https://github.com/sssste/TriDet.