منذ 6 أشهر

الملخص

تلعب المراجعة النصية-الفيديو دورًا مهمًا في الفهم متعدد الوسائط، ولاقت اهتمامًا متزايدًا في السنوات الأخيرة. تركز معظم الطرق الحالية على بناء أزواج تقابلية بين مقاطع الفيديو الكاملة والجمل النصية الكاملة، مع تجاهل العلاقات التقاطعية الدقيقة، مثل العلاقة بين قطعة الفيديو (clip) والعبارة (phrase) أو بين الإطار (frame) والكلمة (word). في هذا البحث، نقترح طريقة جديدة تُسمى التفاعل التقاطعي الهرمي (HCMI)، لاستكشاف العلاقات التقاطعية متعددة المستويات بين الفيديو-الجملة، وقطعة الفيديو-العبارة، والإطار-الكلمة، في مهام المراجعة النصية-الفيديو. وباعتبار العلاقات الدلالية الداخلية بين الإطارات، تقوم HCMI بتطبيق الانتباه الذاتي لاستكشاف الارتباطات على مستوى الإطار، ثم تجمّع تلقائيًا الإطارات المرتبطة لتكوين تمثيلات على مستوى القطعة (clip) والمستوى العام للفيديو. وبهذه الطريقة، تُنشئ HCMI تمثيلات متعددة المستويات للفيديو على مستويات الدقة: الإطار-القطعة-الفيديو، لالتقاط محتوى الفيديو بدقة عالية، وتمثيلات متعددة المستويات للنص على مستويات الدقة: الكلمة-العبارة-الجملة، للجانب النصي. وباستخدام التمثيلات متعددة المستويات لكل من الفيديو والنص، تم تصميم تعلم التقابل الهرمي لاستكشاف العلاقات التقاطعية الدقيقة، مثل العلاقة بين الإطار-الكلمة، وقطعة الفيديو-العبارة، والفيديو-الجملة، مما يمكّن HCMI من إجراء مقارنة دلالية شاملة بين الوسائط النصية والمرئية. وبالإضافة إلى ذلك، تم تحسين الأداء باستخدام تفتيت التسميات التلقائي وتعزيز العينات الحدية، ما مكّن HCMI من تحقيق نتائج جديدة على مستوى الحد الأقصى (SOTA) في مختلف المعايير، حيث بلغ التصنيف الأول (Rank@1) 55.0% و58.2% و29.7% و52.1% و57.3% على مجموعات البيانات MSR-VTT، MSVD، LSMDC، DiDemo، وActivityNet على التوالي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استرجاع النص-الفيديو من تينسنت: تفاعلات عابرة للنماذج الهرمية مع تمثيلات متعددة المستويات

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استرجاع النص-الفيديو من تينسنت: تفاعلات عابرة للنماذج الهرمية مع تمثيلات متعددة المستويات

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استرجاع النص-الفيديو من تينسنت: تفاعلات عابرة للنماذج الهرمية مع تمثيلات متعددة المستويات

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters