HyperAIHyperAI

Command Palette

Search for a command to run...

المحاذاة الموحدة من الخشن إلى الدقيق لاسترجاع الفيديو-النص

Ziyang Wang Yi-Lin Sung Feng Cheng Gedas Bertasius Mohit Bansal

الملخص

النهج التقليدي لاسترجاع الفيديو-النص يعتمد على تطابق خشن أو دقيق بين المعلومات البصرية والنصية. ومع ذلك، فإن استرجاع الفيديو الصحيح وفقًا للطلب النصي غالبًا ما يكون تحديًا، حيث يتطلب القدرة على الاستدلال حول العناصر البصرية عالية المستوى (المشهد) ومنخفضة المستوى (الكائن) وكيف ترتبط بالطلب النصي. لهذا الغرض، نقترح نموذج توحيد التوافق من الخشن إلى الدقيق، والذي أطلقنا عليه اسم UCoFiA. بوجه خاص، يلتقط نموذجنا معلومات التشابه بين الأوضاع المختلفة في مستويات مختلفة من الدقة. للتخفيف من تأثير العناصر البصرية غير ذات الصلة، نطبق أيضًا وحدة جمع التشابه التفاعلي (ISA) لاعتبار أهمية الميزات البصرية المختلفة أثناء جمع التشابه بين الأوضاع للحصول على درجة تشابه لكل مستوى. في النهاية، نطبق خوارزمية Sinkhorn-Knopp لتطبيع درجات التشابه في كل مستوى قبل جمعها، مما يخفف مشكلات الإفراط والإهمال في التمثيل عند المستويات المختلفة. من خلال النظر المشترك إلى التشابه بين الأوضاع في مستويات مختلفة، يسمح UCoFiA بتوحيد فعال للمطابقات متعددة الدقة. بشكل تجريبي، حقق UCoFiA أداءً أفضل من الأساليب السابقة القائمة على CLIP في عدة مقاييس لاسترجاع الفيديو-النص، حيث سجل تحسينات بنسبة 2.4٪ و1.4٪ و1.3٪ في استرجاع النص إلى الفيديو R@1 على MSR-VTT وActivity-Net وDiDeMo على التوالي. رمز البرمجيات الخاص بنا متاح بشكل عام على الرابط https://github.com/Ziyang412/UCoFiA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp