المحاذاة الموحدة من الخشن إلى الدقيق لاسترجاع الفيديو-النص

النهج التقليدي لاسترجاع الفيديو-النص يعتمد على تطابق خشن أو دقيق بين المعلومات البصرية والنصية. ومع ذلك، فإن استرجاع الفيديو الصحيح وفقًا للطلب النصي غالبًا ما يكون تحديًا، حيث يتطلب القدرة على الاستدلال حول العناصر البصرية عالية المستوى (المشهد) ومنخفضة المستوى (الكائن) وكيف ترتبط بالطلب النصي. لهذا الغرض، نقترح نموذج توحيد التوافق من الخشن إلى الدقيق، والذي أطلقنا عليه اسم UCoFiA. بوجه خاص، يلتقط نموذجنا معلومات التشابه بين الأوضاع المختلفة في مستويات مختلفة من الدقة. للتخفيف من تأثير العناصر البصرية غير ذات الصلة، نطبق أيضًا وحدة جمع التشابه التفاعلي (ISA) لاعتبار أهمية الميزات البصرية المختلفة أثناء جمع التشابه بين الأوضاع للحصول على درجة تشابه لكل مستوى. في النهاية، نطبق خوارزمية Sinkhorn-Knopp لتطبيع درجات التشابه في كل مستوى قبل جمعها، مما يخفف مشكلات الإفراط والإهمال في التمثيل عند المستويات المختلفة. من خلال النظر المشترك إلى التشابه بين الأوضاع في مستويات مختلفة، يسمح UCoFiA بتوحيد فعال للمطابقات متعددة الدقة. بشكل تجريبي، حقق UCoFiA أداءً أفضل من الأساليب السابقة القائمة على CLIP في عدة مقاييس لاسترجاع الفيديو-النص، حيث سجل تحسينات بنسبة 2.4٪ و1.4٪ و1.3٪ في استرجاع النص إلى الفيديو R@1 على MSR-VTT وActivity-Net وDiDeMo على التوالي. رمز البرمجيات الخاص بنا متاح بشكل عام على الرابط https://github.com/Ziyang412/UCoFiA.