HyperAIHyperAI

Command Palette

Search for a command to run...

VRAG: رسم بياني للانتباه الإقليمي لاسترجاع الفيديو القائم على المحتوى

Kennard Ng Ser-Nam Lim Gim Hee Lee

الملخص

تُستخدم الاسترجاع القائم على المحتوى للفيديوهات (CBVR) في منصات مشاركة الوسائط لأغراض مثل توصية الفيديوهات وفلترتها. وبما أن قواعد البيانات تتوسع لتضم مليارات الفيديوهات، فإن النماذج المستندة إلى مستوى الفيديو التي تعتمد على تمثيلات ثابتة الحجم تُفضَّل بفضل كفاءتها. في هذه الورقة، نُقدِّم شبكة VRAG (شبكة الانتباه الإقليمي للفيديو) التي تُحسِّن الحالة الراهنة للطرق القائمة على مستوى الفيديو. نُمثِّل الفيديوهات بتفصيل أدق من خلال خصائص على مستوى المناطق، ونُشَكِّل الديناميكيات الفضائية الزمنية للفيديو من خلال العلاقات بين المناطق. تعتمد شبكة VRAG على انتباه ذاتي لالتقاط العلاقات بين المناطق بناءً على محتواها الدلالي، بالإضافة إلى تجميع مُتَمَيِّز بالتماثل بالنسبة للترقيم (Permutation Invariant) باستخدام الت convolution الرسومية. علاوةً على ذلك، نُظهر أن الفجوة في الأداء بين الطرق القائمة على مستوى الفيديو والطرق القائمة على مستوى الإطارات يمكن تقليلها من خلال تقسيم الفيديوهات إلى مشاهد (Shots)، واستخدام تمثيلات المشاهد (Shot Embeddings) في استرجاع الفيديوهات. وقد قُمنا بتقييم شبكة VRAG على عدة مهام لاسترجاع الفيديوهات، وحققنا حالة جديدة من التقدُّم في استرجاع الفيديوهات على مستوى الفيديو. بالإضافة إلى ذلك، تُظهر نسخة VRAG على مستوى المشاهد دقة استرجاع أعلى من الطرق الأخرى القائمة على مستوى الفيديو، وتقريبًا أداءً يوازي الأداء في الطرق القائمة على مستوى الإطارات، مع سرعة تقييم أسرع. وأخيرًا، سيتم إتاحة الكود الخاص بنا للجمهور بشكل مفتوح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp