PIDRo: انتباه متماثل متوازٍ مع توجيه ديناميكي لاسترجاع النص-الفيديو

استرجاع الفيديو النصي هو مهمة أساسية ذات قيمة عملية عالية في الأبحاث متعددة الوسائط. مستوحاة من النجاح الكبير للنماذج المُدرَّبة مسبقًا للصور والنصوص باستخدام بيانات ضخمة، مثل CLIP، تم اقتراح العديد من الطرق لنقل قدرة CLIP القوية على التعلم التمثيلي إلى مجال استرجاع الفيديو النصي. ومع ذلك، نظرًا للفرق بين الوسائط بين الفيديوهات والصور، لا يزال التكيف الفعّال لـ CLIP في مجال الفيديو موضوعًا غير مُستكشَف بشكل كافٍ. في هذه الورقة، نستعرض هذه المشكلة من جهتين. أولاً، نُحسّن المحول الخاص بالصورة في CLIP لفهم أدق للفيديو بطريقة سلسة. ثانيًا، نُجري تقابلًا دقيقًا بين الفيديو والنصوص من منظور تحسين النموذج وتصميم الدالة الخسارة. بشكل خاص، نُقدّم نموذجًا تقابلًا دقيقًا مزودًا باهتمام متوازٍ متماثل ومسار ديناميكي، يُسمى PIDRo، لاسترجاع الفيديو النصي. يُستخدم وحدة الاهتمام المتوازية المتماثلة كمحول للفيديو، وتشمل فرعين متوازيين يُمكّنان من نمذجة المعلومات الفضائية الزمنية للفيديو من مستويات "البصمة" (patch) واللقطة (frame) معًا. أما وحدة التوجيه الديناميكي، فهي مبنية لتعزيز محول النص في CLIP، حيث تُولّد تمثيلات معلوماتية للكلمات من خلال توزيع المعلومات الدقيقة على الرموز الكلمية ذات الصلة داخل الجملة. يُتيح هذا التصميم النموذجي تمثيلات معلوماتية دقيقة للبصمات، واللقطات، والكلمات. ثم نُجري تفاعلًا على مستوى الرموز (token-wise interaction) بينها. وباستخدام المحولات المُحسَّنة والدالة الخسارة على مستوى الرموز، نتمكن من تحقيق محاذاة أدق بين النصوص والفيديوهات وتحسين دقة الاسترجاع. يُظهر نموذج PIDRo أداءً متفوقًا على المستويات الحالية في مجموعة متنوعة من معايير استرجاع الفيديو النصي، بما في ذلك MSR-VTT، MSVD، LSMDC، DiDeMo، وActivityNet.