HyperAIHyperAI
منذ 18 أيام

الربط القصير الأجل بالمرساة والانتباه التوجيهي الذاتي الطويل الأجل لكشف الكائنات في الفيديو

{Manuel Mucientes, Víctor M Brea, Daniel Cores}
الملخص

نقدم معمارية شبكة جديدة قادرة على الاستفادة من المعلومات المكانية-الزمنية المتاحة في مقاطع الفيديو لتعزيز دقة كشف الكائنات. أولاً، تُربط وتحلل ميزات المربعات من خلال ربط الاقتراحات الناتجة عن نفس مربع الركيزة في الإطارات المجاورة. ثم، نصمم وحدة انتباه جديدة تُجمّع ميزات المربعات المُحسّنة على المدى القصير لاستغلال المعلومات المكانية-الزمنية على المدى الطويل. وهذه الوحدة هي الأولى من نوعها في مجال كشف الكائنات في الفيديو التي تستفيد من الميزات الهندسية على المدى الطويل. وأخيرًا، يتم تغذية وحدة مزدوجة مكانية-زمنية بكل من المعلومات المكانية من الإطار المرجعي والمعلومات المجمعة التي تأخذ بعين الاعتبار السياق الزمني القصير والطويل. وقد تم اختبار اقتراحنا على خمسة مجموعات بيانات لكشف الكائنات في الفيديو، والتي تختلف بشكل كبير في خصائصها، بهدف إثبات قوته في عدد واسع من السيناريوهات. وتبين الاختبارات الإحصائية غير المعلمية أن نهجنا يتفوق على أحدث التقنيات الحالية. ويمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/daniel-cores/SLTnet.