HyperAIHyperAI
منذ 2 أشهر

الكشف العملي عن أهداف الفيديو من خلال اختيار ودمج الخصائص

Yuheng Shi; Tong Zhang; Xiaojie Guo
الكشف العملي عن أهداف الفيديو من خلال اختيار ودمج الخصائص
الملخص

مقارنة بكشف الأشياء في الصور الثابتة، فإن كشف الأشياء في الفيديو (VOD) يحتاج إلى الاهتمام بشكل خاص بالاختلافات العالية بين الإطارات في مظهر الشيء، وتدهور متغير في بعض الإطارات. على المستوى النظري، يمكن أن يستفيد الكشف في إطار معين من الفيديو من المعلومات الموجودة في الإطارات الأخرى. لذا، فإن كيفية تجميع الخصائص بكفاءة عبر إطارات مختلفة هو المفتاح للمشكلة المستهدفة. معظم طرق التجميع الحديثة مصممة خصيصًا للمكتشفات ذات المرحلتين، مما يجعلها تعاني من تكاليف حسابية عالية بسبب طبيعتها الثنائية. من ناحية أخرى، رغم أن المكتشفات ذات المرحلة الواحدة قد أحرزت تقدمًا مستمرًا في التعامل مع الصور الثابتة، إلا أن قابليتها للتطبيق في كشف الأشياء في الفيديو (VOD) لم تخضع لاستكشاف كافٍ. لمعالجة القضايا المذكورة أعلاه، يبتكر هذا البحث استراتيجية بسيطة ومعتمدة للغاية لاختيار الخصائص وتجميعها، مما يحقق دقة كبيرة بأقل تكلفة حسابية. تحديدًا، بهدف تقليص الحسابات الضخمة واستهلاك الذاكرة الناجم عن خاصية التنبؤ الكثيف للمكتشفات ذات المرحلة الواحدة، نقوم أولًا بتقليص الخصائص المرشحة من خرائط التنبؤ الكثيفة. ثم يتم تقييم العلاقة بين الإطار المستهدف وإطارات المرجع الخاصة به لتوجيه عملية التجميع. تم إجراء دراسات تجريبية شاملة ودراسات استبعاد لتأكيد فعالية تصميمنا، وإبراز مزاياه على باقي الطرق الرائدة في كشف الأشياء في الفيديو (VOD) من حيث الفعالية والكفاءة. وبشكل ملفت للنظر، يصل نموذجنا إلى \emph{أداء قياسي جديد، أي نسبة AP50 92.9٪ بمعدل أكثر من 30 إطارًا في الثانية على مجموعة بيانات ImageNet VID باستخدام بطاقة رسوميات واحدة من نوع 3090}، مما يجعله خيارًا جاذبًا للتطبيقات على نطاق كبير أو الزمن الحقيقي. التنفيذ بسيط ويمكن الوصول إليه عبر الرابط \url{https://github.com/YuHengsss/YOLOV}.

الكشف العملي عن أهداف الفيديو من خلال اختيار ودمج الخصائص | أحدث الأوراق البحثية | HyperAI