HyperAIHyperAI
منذ 12 أيام

تُعد العلاقات المجاورة مهمة في كشف مشاهد الفيديو

{Zhangbin Qian, Zhilong Ou, Jiaxin Li, Hongxing Wang, Jiawei Tan}
تُعد العلاقات المجاورة مهمة في كشف مشاهد الفيديو
الملخص

تهدف كشف مشاهد الفيديو إلى ربط اللقطات زمنيًا للحصول على مشاهد متماسكة من الناحية المعنى. ومن الضروري في هذه المهمة التقاط الترابط المميز للقطع بين اللقطات من خلال تقييم التشابه. ومع ذلك، تعتمد معظم الطرق على تشابهات عادية بين اللقطات المتتالية، والتي قد تؤدي إلى ربط لقطات شبيهة حتى لو كانت من مشاهد مختلفة، وفي الوقت نفسه تعيق دمج لقطات غير شبيهة ضمن مشهد متكامل. في هذه الورقة، نقترح نموذج NeighborNet الذي يُضفي سياق اللقطات على تشابهات اللقطات المتعاقبة من خلال استكشاف دقيق للعلاقات بين الجيران المعنيين بالمعنى أو الزمن في فترة زمنية محلية. وبهذه الطريقة، تُعاد قياس تشابهات اللقطات المتعاقبة كتشابهات تراعي جيران المعنى أو الزمن، مما يسمح لنموذج NeighborNet بتعلم تضمين السياق في ميزات اللقطات باستخدام شبكة تلافيفية رسمية (Graph Convolutional Network). ونتيجة لذلك، لا تقلل الميزات المُتعلمة من الترابط بين لقطات شبيهة من مشاهد مختلفة فقط، بل تُعزز أيضًا الترابط بين لقطات غير شبيهة داخل نفس المشهد. أظهرت النتائج التجريبية على مجموعات بيانات معيارية عامة أن NeighborNet يحقق تحسينات كبيرة في كشف مشاهد الفيديو، ويتخطى النماذج الحالية المنشورة بفارق لا يقل عن 6% في دقة المتوسط (Average Precision - AP). يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/ExMorgan-Alter/NeighborNet.

تُعد العلاقات المجاورة مهمة في كشف مشاهد الفيديو | أحدث الأوراق البحثية | HyperAI