HyperAIHyperAI
منذ 2 أشهر

التصنيف المكاني-زماني للعمليات من البداية إلى النهاية باستخدام متحولات الفيديو

Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab
التصنيف المكاني-زماني للعمليات من البداية إلى النهاية باستخدام متحولات الفيديو
الملخص

النماذج الأكثر كفاءة في تحديد الأفعال المكانية-الزمانية تستخدم اقتراحات خارجية للأشخاص وبنوك ذاكرة خارجية معقدة. نقترح نموذجاً كاملاً من النهاية إلى النهاية يعتمد فقط على الترانسفورمر، والذي يتعامل مباشرة مع الفيديو المدخل ويخرج أنبوبات (tubelets) - وهي سلسلة من الصناديق الحدودية وأصناف الأفعال في كل إطار. يمكن تدريب نموذجنا المرنة إما باستخدام إشراف نادر على الصناديق الحدودية في الإطارات الفردية، أو باستخدام شروح كاملة لأنبوبات (tubelets). وفي كلا الحالتين، يقوم بتوقع أنبوبات متماسكة كمخرج. بالإضافة إلى ذلك، لا يتطلب نموذجنا من النهاية إلى النهاية أي معالجة أولية على شكل اقتراحات، أو معالجة لاحقة بخصوص القمع غير الأقصى. أجرينا تجارب استبعاد واسعة النطاق، وحققنا تقدماً كبيراً في نتائج الطليعة العلمية (state-of-the-art) على أربعة مقاييس مختلفة لتحديد الأفعال المكانية-الزمانية باستخدام كل من الإطارات الرئيسية النادرة والشروح الكاملة لأنبوبات (tubelets).

التصنيف المكاني-زماني للعمليات من البداية إلى النهاية باستخدام متحولات الفيديو | أحدث الأوراق البحثية | HyperAI