منذ 9 أيام

X-Pool: انتباه متعدد الوسائط بين اللغة والفيديو لاسترجاع الفيديو بناءً على النص

Satya Krishna Gorti, Noel Vouitsis, Junwei Ma, Keyvan Golestan, Maksims Volkovs, Animesh Garg, Guangwei Yu

الملخص

في استرجاع النصوص المرئية، يكون الهدف هو تعلُّم دالة تشابه عبر النماذج بين النص والفيديو، بحيث تُصنِّف الأزواج ذات الصلة بين النص والفيديو أعلى من الأزواج غير المرتبطة. ومع ذلك، فإن الفيديوهات تعبّر بطبيعتها عن طيف أوسع بكثير من المعلومات مقارنة بالنصوص. في المقابل، غالبًا ما تُركّز النصوص على مناطق فرعية ضمن الفيديو الكامل، وهي تكون أكثر تشابهًا معنويًا مع إطارات محددة داخل الفيديو. لذلك، بالنسبة لنص معين، ينبغي على نموذج الاسترجاع التركيز على المناطق الفرعية الأكثر تشابهًا معنويًا في الفيديو، لإجراء مقارنة أكثر صلة. ومع ذلك، فإن معظم الدراسات الحالية تُجمّع الفيديو ككل دون النظر مباشرة إلى النص. تشمل أساليب التجميع غير المعتمدة على النص الشائعة مثل التجميع بالقيمة المتوسطة (mean-pooling) أو الانتباه الذاتي (self-attention) على الإطارات، لكن هذه الأساليب من المرجح أن تُشغّل معلومات بصرية مضللة لا تُوصف في النص المعطى. لحل هذه المشكلة، نقترح نموذج انتباه عبر النماذج يُسمّى X-Pool، والذي يُنَفّذ تفكيرًا مشتركًا بين النص وإطارات الفيديو. تتمحور آلية العمل الأساسية لدينا على انتباه من نوع الضرب النقطي المُدرَّج (scaled dot product attention)، يُستخدم من أجل تمكين النص من الانتباه إلى الإطارات الأكثر تشابهًا معنويًا. ثم نُولِّد تمثيلًا مجمّعًا للفيديو مشروطًا بوزنات الانتباه الخاصة بالنص على الإطارات. قمنا بتقييم منهجنا على ثلاث مجموعات بيانات معيارية: MSR-VTT وMSVD وLSMDC، وحققنا نتائج جديدة من أفضل النتائج المُحققة حتى الآن، بتحسّن نسبي يصل إلى 12٪ في دقة الاسترجاع عند الموضع الأول (Recall@1). تُبرز نتائجنا بذلك أهمية التفكير المشترك بين النص والفيديو لاستخلاص مؤشرات بصرية مهمة وفقًا لسياق النص. يمكن الاطلاع على الكود الكامل والعرض التوضيحي عبر الرابط التالي: https://layer6ai-labs.github.io/xpool/