HyperAIHyperAI

Command Palette

Search for a command to run...

استرجاع النص-الفيديو من تينسنت: تفاعلات عابرة للنماذج الهرمية مع تمثيلات متعددة المستويات

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

الملخص

تلعب المراجعة النصية-الفيديو دورًا مهمًا في الفهم متعدد الوسائط، ولاقت اهتمامًا متزايدًا في السنوات الأخيرة. تركز معظم الطرق الحالية على بناء أزواج تقابلية بين مقاطع الفيديو الكاملة والجمل النصية الكاملة، مع تجاهل العلاقات التقاطعية الدقيقة، مثل العلاقة بين قطعة الفيديو (clip) والعبارة (phrase) أو بين الإطار (frame) والكلمة (word). في هذا البحث، نقترح طريقة جديدة تُسمى التفاعل التقاطعي الهرمي (HCMI)، لاستكشاف العلاقات التقاطعية متعددة المستويات بين الفيديو-الجملة، وقطعة الفيديو-العبارة، والإطار-الكلمة، في مهام المراجعة النصية-الفيديو. وباعتبار العلاقات الدلالية الداخلية بين الإطارات، تقوم HCMI بتطبيق الانتباه الذاتي لاستكشاف الارتباطات على مستوى الإطار، ثم تجمّع تلقائيًا الإطارات المرتبطة لتكوين تمثيلات على مستوى القطعة (clip) والمستوى العام للفيديو. وبهذه الطريقة، تُنشئ HCMI تمثيلات متعددة المستويات للفيديو على مستويات الدقة: الإطار-القطعة-الفيديو، لالتقاط محتوى الفيديو بدقة عالية، وتمثيلات متعددة المستويات للنص على مستويات الدقة: الكلمة-العبارة-الجملة، للجانب النصي. وباستخدام التمثيلات متعددة المستويات لكل من الفيديو والنص، تم تصميم تعلم التقابل الهرمي لاستكشاف العلاقات التقاطعية الدقيقة، مثل العلاقة بين الإطار-الكلمة، وقطعة الفيديو-العبارة، والفيديو-الجملة، مما يمكّن HCMI من إجراء مقارنة دلالية شاملة بين الوسائط النصية والمرئية. وبالإضافة إلى ذلك، تم تحسين الأداء باستخدام تفتيت التسميات التلقائي وتعزيز العينات الحدية، ما مكّن HCMI من تحقيق نتائج جديدة على مستوى الحد الأقصى (SOTA) في مختلف المعايير، حيث بلغ التصنيف الأول (Rank@1) 55.0% و58.2% و29.7% و52.1% و57.3% على مجموعات البيانات MSR-VTT، MSVD، LSMDC، DiDemo، وActivityNet على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp