HyperAIHyperAI

Command Palette

Search for a command to run...

TS2-Net: نموذج انتقال وتحديد الرموز للبحث النصي-المرئي

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

الملخص

استرجاع النص-الفيديو هو مهمة ذات قيمة عملية كبيرة وقد لاقت اهتمامًا متزايدًا، حيث يُعدّ تعلّم تمثيل الفيديو الزماني-المكاني من بين المحاور البحثية البارزة. عادةً ما تستخدم نماذج استرجاع الفيديو الحديثة بشكل مباشر نماذج رؤية مُدرّبة مسبقًا مع هيكل شبكة ثابت، مما يمنع تحسينها أكثر لتكوين تمثيلات فيديو زمانية-مكانية دقيقة. في هذا البحث، نقترح شبكة Shift وSelection للرموز (TS2-Net)، وهي معمارية جديدة من نوع Transformer تعتمد على نقل وتحديد الرموز، والتي تقوم بتعديل تسلسل الرموز ديناميكيًا وتحديد الرموز المفيدة في كلا البعدين الزماني والمكانى من عينات الفيديو المدخلة. يُقوم وحدة نقل الرموز بنقل ميزات الرموز بالكامل ذهابًا وإيابًا عبر الإطارات المجاورة، مما يُحافظ على التمثيل الكامل للرموز ويُمكن من اكتشاف الحركات الدقيقة. ثم تقوم وحدة اختيار الرموز باختيار الرموز التي تسهم بشكل أكبر في التمثيل المكاني المحلي. وبناءً على تجارب مكثفة، تُحقق TS2-Net أداءً متقدمًا على معايير استرجاع النص-الفيديو الرئيسية، بما في ذلك إقامة أرقام قياسية جديدة على مجموعات بيانات MSRVTT وVATEX وLSMDC وActivityNet وDiDeMo.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp