PAT: تحويلة مُوجَّهة بالمكان للكشف الكثيف عن الإجراءات متعددة التسميات

نُقدِّم PAT، وهو شبكة تعتمد على المُحَوِّل (Transformer) تتعلَّم الاعتماديات الزمنية المعقدة في الأفعال المترافقة في الفيديو من خلال استغلال السمات الزمنية متعددة المقياس. في الطرق الحالية، يفقد آلية الانتباه الذاتي في المُحَوِّلات المعلومات المكانية الزمنية، وهي معلومات ضرورية للكشف الموثوق عن الأفعال. لمعالجة هذه المشكلة، نقوم بـ (أ) دمج الترميز المكاني النسبي في آلية الانتباه الذاتي، و(ب) استغلال العلاقات الزمنية متعددة المقياس من خلال تصميم شبكة غير هرمية جديدة، على عكس الطرق الحديثة القائمة على المُحَوِّلات التي تعتمد على هيكل هرمي. ونُجادل بأن دمج آلية الانتباه الذاتي مع عمليات عينة فرعية متعددة في الطرق الهرمية يؤدي إلى فقدان أكبر للمعلومات المكانية. وقد قُمنا بتقييم أداء النهج المقترح على نوعين من مجموعات البيانات الصعبة ذات التسمية المتعددة الكثيفة، ونُظهر أن PAT يُحسِّن النتيجة الحالية للحالة الراهنة بنسبة 1.1% و0.6% من حيث مقياس mAP على مجموعتي بيانات Charades وMultiTHUMOS على التوالي، مما يُحقِّق بذلك أفضل نتيجة ممكنة في mAP بـ 26.5% و44.6% على التوالي. كما أجرينا دراسات تحليلية واسعة لفحص تأثير المكونات المختلفة في الشبكة المقترحة.