استرجاع النص-الفيديو من تينسنت: تفاعلات عابرة للنماذج الهرمية مع تمثيلات متعددة المستويات

تلعب المراجعة النصية-الفيديو دورًا مهمًا في الفهم متعدد الوسائط، ولاقت اهتمامًا متزايدًا في السنوات الأخيرة. تركز معظم الطرق الحالية على بناء أزواج تقابلية بين مقاطع الفيديو الكاملة والجمل النصية الكاملة، مع تجاهل العلاقات التقاطعية الدقيقة، مثل العلاقة بين قطعة الفيديو (clip) والعبارة (phrase) أو بين الإطار (frame) والكلمة (word). في هذا البحث، نقترح طريقة جديدة تُسمى التفاعل التقاطعي الهرمي (HCMI)، لاستكشاف العلاقات التقاطعية متعددة المستويات بين الفيديو-الجملة، وقطعة الفيديو-العبارة، والإطار-الكلمة، في مهام المراجعة النصية-الفيديو. وباعتبار العلاقات الدلالية الداخلية بين الإطارات، تقوم HCMI بتطبيق الانتباه الذاتي لاستكشاف الارتباطات على مستوى الإطار، ثم تجمّع تلقائيًا الإطارات المرتبطة لتكوين تمثيلات على مستوى القطعة (clip) والمستوى العام للفيديو. وبهذه الطريقة، تُنشئ HCMI تمثيلات متعددة المستويات للفيديو على مستويات الدقة: الإطار-القطعة-الفيديو، لالتقاط محتوى الفيديو بدقة عالية، وتمثيلات متعددة المستويات للنص على مستويات الدقة: الكلمة-العبارة-الجملة، للجانب النصي. وباستخدام التمثيلات متعددة المستويات لكل من الفيديو والنص، تم تصميم تعلم التقابل الهرمي لاستكشاف العلاقات التقاطعية الدقيقة، مثل العلاقة بين الإطار-الكلمة، وقطعة الفيديو-العبارة، والفيديو-الجملة، مما يمكّن HCMI من إجراء مقارنة دلالية شاملة بين الوسائط النصية والمرئية. وبالإضافة إلى ذلك، تم تحسين الأداء باستخدام تفتيت التسميات التلقائي وتعزيز العينات الحدية، ما مكّن HCMI من تحقيق نتائج جديدة على مستوى الحد الأقصى (SOTA) في مختلف المعايير، حيث بلغ التصنيف الأول (Rank@1) 55.0% و58.2% و29.7% و52.1% و57.3% على مجموعات البيانات MSR-VTT، MSVD، LSMDC، DiDemo، وActivityNet على التوالي.