Command Palette
Search for a command to run...
التصنيف المكاني-زماني للعمليات من البداية إلى النهاية باستخدام متحولات الفيديو
التصنيف المكاني-زماني للعمليات من البداية إلى النهاية باستخدام متحولات الفيديو
Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab
الملخص
النماذج الأكثر كفاءة في تحديد الأفعال المكانية-الزمانية تستخدم اقتراحات خارجية للأشخاص وبنوك ذاكرة خارجية معقدة. نقترح نموذجاً كاملاً من النهاية إلى النهاية يعتمد فقط على الترانسفورمر، والذي يتعامل مباشرة مع الفيديو المدخل ويخرج أنبوبات (tubelets) - وهي سلسلة من الصناديق الحدودية وأصناف الأفعال في كل إطار. يمكن تدريب نموذجنا المرنة إما باستخدام إشراف نادر على الصناديق الحدودية في الإطارات الفردية، أو باستخدام شروح كاملة لأنبوبات (tubelets). وفي كلا الحالتين، يقوم بتوقع أنبوبات متماسكة كمخرج. بالإضافة إلى ذلك، لا يتطلب نموذجنا من النهاية إلى النهاية أي معالجة أولية على شكل اقتراحات، أو معالجة لاحقة بخصوص القمع غير الأقصى. أجرينا تجارب استبعاد واسعة النطاق، وحققنا تقدماً كبيراً في نتائج الطليعة العلمية (state-of-the-art) على أربعة مقاييس مختلفة لتحديد الأفعال المكانية-الزمانية باستخدام كل من الإطارات الرئيسية النادرة والشروح الكاملة لأنبوبات (tubelets).