HyperAIHyperAI

Command Palette

Search for a command to run...

TubeDETR: ترسيخ الفيديو المكاني-الزماني باستخدام الترانسفورمرز

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

الملخص

نعتبر مشكلة تحديد موقع أنبوب مكاني-زماني في مقطع فيديو يتوافق مع استعلام نصي معين. هذه هي مهمة صعبة تتطلب نمذجة متزامنة وكفوءة للتفاعلات الزمانية والمكانية والمتعددة الأوضاع. لمعالجة هذه المهمة، نقترح TubeDETR، وهي هندسة مستندة إلى المحول (transformer) مستوحاة من النجاح الحديث لهذه النماذج في اكتشاف الأشياء المشروطة بالنص. يشمل نموذجنا بشكل ملحوظ: (أ) محودث فيديو ونص كفؤ ينمذج التفاعلات المتعددة الأوضاع المكانية على الإطارات المُستخرجة بتناثر (sparsely sampled frames)، و(ب) محودث فضاء-زمن يقوم بالتوازي بتحديد الموقع المكاني-الزماني. نوضح مزايا المكونات المقترحة لدينا من خلال دراسة تقليصية شاملة (ablation study). كما نقيم نهجنا الكامل على مهمة تأسيس الفيديو المكاني-الزماني ونظهر التحسينات على أحدث ما تم الوصول إليه في مقاييس VidSTG وHC-STVG الصعبة. الرمز البرمجي والنماذج المدربة متاحة للعامة على الرابط https://antoyang.github.io/tubedetr.html.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp