HyperAIHyperAI
منذ 2 أشهر

TubeDETR: ترسيخ الفيديو المكاني-الزماني باستخدام الترانسفورمرز

Yang, Antoine ; Miech, Antoine ; Sivic, Josef ; Laptev, Ivan ; Schmid, Cordelia
TubeDETR: ترسيخ الفيديو المكاني-الزماني باستخدام الترانسفورمرز
الملخص

نعتبر مشكلة تحديد موقع أنبوب مكاني-زماني في مقطع فيديو يتوافق مع استعلام نصي معين. هذه هي مهمة صعبة تتطلب نمذجة متزامنة وكفوءة للتفاعلات الزمانية والمكانية والمتعددة الأوضاع. لمعالجة هذه المهمة، نقترح TubeDETR، وهي هندسة مستندة إلى المحول (transformer) مستوحاة من النجاح الحديث لهذه النماذج في اكتشاف الأشياء المشروطة بالنص. يشمل نموذجنا بشكل ملحوظ: (أ) محودث فيديو ونص كفؤ ينمذج التفاعلات المتعددة الأوضاع المكانية على الإطارات المُستخرجة بتناثر (sparsely sampled frames)، و(ب) محودث فضاء-زمن يقوم بالتوازي بتحديد الموقع المكاني-الزماني. نوضح مزايا المكونات المقترحة لدينا من خلال دراسة تقليصية شاملة (ablation study). كما نقيم نهجنا الكامل على مهمة تأسيس الفيديو المكاني-الزماني ونظهر التحسينات على أحدث ما تم الوصول إليه في مقاييس VidSTG وHC-STVG الصعبة. الرمز البرمجي والنماذج المدربة متاحة للعامة على الرابط https://antoyang.github.io/tubedetr.html.

TubeDETR: ترسيخ الفيديو المكاني-الزماني باستخدام الترانسفورمرز | أحدث الأوراق البحثية | HyperAI