VRAG: رسم بياني للانتباه الإقليمي لاسترجاع الفيديو القائم على المحتوى

تُستخدم الاسترجاع القائم على المحتوى للفيديوهات (CBVR) في منصات مشاركة الوسائط لأغراض مثل توصية الفيديوهات وفلترتها. وبما أن قواعد البيانات تتوسع لتضم مليارات الفيديوهات، فإن النماذج المستندة إلى مستوى الفيديو التي تعتمد على تمثيلات ثابتة الحجم تُفضَّل بفضل كفاءتها. في هذه الورقة، نُقدِّم شبكة VRAG (شبكة الانتباه الإقليمي للفيديو) التي تُحسِّن الحالة الراهنة للطرق القائمة على مستوى الفيديو. نُمثِّل الفيديوهات بتفصيل أدق من خلال خصائص على مستوى المناطق، ونُشَكِّل الديناميكيات الفضائية الزمنية للفيديو من خلال العلاقات بين المناطق. تعتمد شبكة VRAG على انتباه ذاتي لالتقاط العلاقات بين المناطق بناءً على محتواها الدلالي، بالإضافة إلى تجميع مُتَمَيِّز بالتماثل بالنسبة للترقيم (Permutation Invariant) باستخدام الت convolution الرسومية. علاوةً على ذلك، نُظهر أن الفجوة في الأداء بين الطرق القائمة على مستوى الفيديو والطرق القائمة على مستوى الإطارات يمكن تقليلها من خلال تقسيم الفيديوهات إلى مشاهد (Shots)، واستخدام تمثيلات المشاهد (Shot Embeddings) في استرجاع الفيديوهات. وقد قُمنا بتقييم شبكة VRAG على عدة مهام لاسترجاع الفيديوهات، وحققنا حالة جديدة من التقدُّم في استرجاع الفيديوهات على مستوى الفيديو. بالإضافة إلى ذلك، تُظهر نسخة VRAG على مستوى المشاهد دقة استرجاع أعلى من الطرق الأخرى القائمة على مستوى الفيديو، وتقريبًا أداءً يوازي الأداء في الطرق القائمة على مستوى الإطارات، مع سرعة تقييم أسرع. وأخيرًا، سيتم إتاحة الكود الخاص بنا للجمهور بشكل مفتوح.