منذ 8 أشهر

الملخص

نعتبر مشكلة تحديد موقع أنبوب مكاني-زماني في مقطع فيديو يتوافق مع استعلام نصي معين. هذه هي مهمة صعبة تتطلب نمذجة متزامنة وكفوءة للتفاعلات الزمانية والمكانية والمتعددة الأوضاع. لمعالجة هذه المهمة، نقترح TubeDETR، وهي هندسة مستندة إلى المحول (transformer) مستوحاة من النجاح الحديث لهذه النماذج في اكتشاف الأشياء المشروطة بالنص. يشمل نموذجنا بشكل ملحوظ: (أ) محودث فيديو ونص كفؤ ينمذج التفاعلات المتعددة الأوضاع المكانية على الإطارات المُستخرجة بتناثر (sparsely sampled frames)، و(ب) محودث فضاء-زمن يقوم بالتوازي بتحديد الموقع المكاني-الزماني. نوضح مزايا المكونات المقترحة لدينا من خلال دراسة تقليصية شاملة (ablation study). كما نقيم نهجنا الكامل على مهمة تأسيس الفيديو المكاني-الزماني ونظهر التحسينات على أحدث ما تم الوصول إليه في مقاييس VidSTG وHC-STVG الصعبة. الرمز البرمجي والنماذج المدربة متاحة للعامة على الرابط https://antoyang.github.io/tubedetr.html.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار