HyperAIHyperAI

Command Palette

Search for a command to run...

RoME: نموذج تحويلي متعدد الخبراء يراعي الدور للبحث النصي-المرئي

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

الملخص

تُرفع كميات هائلة من الفيديوهات يوميًا مع انتشار القنوات الاجتماعية؛ وبالتالي، أصبح استرجاع المحتوى الفيديو الأكثر صلة باستعلامات المستخدم النصية دورًا أكثر أهمية. تعتمد معظم الطرق الحالية على فضاء تضمين مشترك واحد بين الميزات البصرية العالمية والنصوص، دون أخذ الهياكل المحلية لكل وسيلة بعين الاعتبار. في المقابل، تأخذ بعض الطرق الأخرى بعين الاعتبار عدة فضاءات تضمين تتضمن الميزات العالمية والمحليّة بشكل منفصل، لكنها تتجاهل الترابطات الغنية بين الوسائط المختلفة.نُقدّم طريقة جديدة تُسمى مزيج الخبراء المُعتمِد على المُحَوِّل (RoME)، التي تُفكّك النص والفيديو إلى ثلاث مستويات: السياقات المكانية، والسياقات الزمنية، والسياقات الكائنية. نستخدم آلية انتباه تعتمد على المُحَوِّل للاستفادة الكاملة من تمثيلات البصرية والنصية على كل من المستويات العالمية والمحليّة، مع استخدام مزيج الخبراء لاعتبار الترابطات بين الوسائط والهياكل. تُظهر النتائج أن طريقتنا تتفوّق على أحدث الطرق المُعتمدة في مجموعتي بيانات YouCook2 وMSR-VTT، مع استخدام نفس النموذج البصري الأساسي دون تدريب مسبق. وأخيرًا، أجرينا دراسات تحليلية موسعة لتوضيح خيارات التصميم التي اعتمدناها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RoME: نموذج تحويلي متعدد الخبراء يراعي الدور للبحث النصي-المرئي | مستندات | HyperAI