كشف الإجراءات الزمنية النهائية إلى النهاية باستخدام Transformer

كشف التصرف الزمني (TAD) يهدف إلى تحديد التصنيف الدلالي والفترة الزمنية لكل مثال تصرف في فيديو غير مُقَصَّر. وهو مهمة أساسية وصعبة في فهم الفيديو. تعاملت الطرق السابقة هذه المهمة باستخدام أنظمة معقدة، حيث تتطلب غالبًا تدريبًا لشبكات متعددة وتشمل عمليات مصممة يدويًا مثل إزالة القمم غير القصوى (non-maximal suppression) وإنشاء المُحاور (anchor generation)، ما يحد من المرونة ويمنع التعلم من الطرف إلى الطرف (end-to-end). في هذه الورقة، نقترح طريقة قائمة على نموذج Transformer للحصول على تعلم من الطرف إلى الطرف لـ TAD، تُسمى TadTR. تعتمد TadTR على مجموعة صغيرة من التضمينات القابلة للتعلم تُعرف بـ "استفسارات التصرف" (action queries)، حيث تقوم باستخراج معلومات سياقية زمنية تكيفية من الفيديو لكل استفسار، وتتنبأ مباشرة بوجود أمثلة التصرف باستخدام هذا السياق. ولتكيف نموذج Transformer مع مهمة TAD، نقترح ثلاث تحسينات لتعزيز وعيه بالسياق المكاني الزمني. وجوهر هذه التحسينات هو وحدة انتباه مُتغيرة زمنيًا (temporal deformable attention) التي تركز بشكل انتقائي على مجموعة نادرة من القطع الزمنية الأساسية في الفيديو. كما تم تصميم آلية تحسين المقاطع (segment refinement mechanism) ورأس انحدار لتحديد صفة التصرف (actionness regression head) لتحسين حدود وثقة التوقعات المُتنبأ بها على التوالي. وبفضل هذه البنية البسيطة، تُظهر TadTR تكلفة حسابية أقل مقارنة بالكواشف السابقة، مع الحفاظ على أداء متميز. وباعتبارها كاشفًا ذاتيًا متكاملًا، حققت أداءً متقدمًا جدًا على مجموعتي البيانات THUMOS14 (56.7% mAP) وHACS Segments (32.09% mAP). وبالإضافة إلى تصنيف تصرف إضافي، حققت 36.75% mAP على ActivityNet-1.3. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/xlliu7/TadTR.