منذ 6 أشهر

الملخص

تُرفع كميات هائلة من الفيديوهات يوميًا مع انتشار القنوات الاجتماعية؛ وبالتالي، أصبح استرجاع المحتوى الفيديو الأكثر صلة باستعلامات المستخدم النصية دورًا أكثر أهمية. تعتمد معظم الطرق الحالية على فضاء تضمين مشترك واحد بين الميزات البصرية العالمية والنصوص، دون أخذ الهياكل المحلية لكل وسيلة بعين الاعتبار. في المقابل، تأخذ بعض الطرق الأخرى بعين الاعتبار عدة فضاءات تضمين تتضمن الميزات العالمية والمحليّة بشكل منفصل، لكنها تتجاهل الترابطات الغنية بين الوسائط المختلفة.نُقدّم طريقة جديدة تُسمى مزيج الخبراء المُعتمِد على المُحَوِّل (RoME)، التي تُفكّك النص والفيديو إلى ثلاث مستويات: السياقات المكانية، والسياقات الزمنية، والسياقات الكائنية. نستخدم آلية انتباه تعتمد على المُحَوِّل للاستفادة الكاملة من تمثيلات البصرية والنصية على كل من المستويات العالمية والمحليّة، مع استخدام مزيج الخبراء لاعتبار الترابطات بين الوسائط والهياكل. تُظهر النتائج أن طريقتنا تتفوّق على أحدث الطرق المُعتمدة في مجموعتي بيانات YouCook2 وMSR-VTT، مع استخدام نفس النموذج البصري الأساسي دون تدريب مسبق. وأخيرًا، أجرينا دراسات تحليلية موسعة لتوضيح خيارات التصميم التي اعتمدناها.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RoME: نموذج تحويلي متعدد الخبراء يراعي الدور للبحث النصي-المرئي

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RoME: نموذج تحويلي متعدد الخبراء يراعي الدور للبحث النصي-المرئي

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RoME: نموذج تحويلي متعدد الخبراء يراعي الدور للبحث النصي-المرئي

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters