HyperAIHyperAI
منذ 2 أشهر

YOLOV: جعل كاشفات الأشياء في الصور الثابتة ممتازة في كشف الأشياء في الفيديو

Yuheng Shi; Naiyan Wang; Xiaojie Guo
YOLOV: جعل كاشفات الأشياء في الصور الثابتة ممتازة في كشف الأشياء في الفيديو
الملخص

الكشف عن الأشياء في الفيديو (VID) يعتبر تحديًا بسبب التغيرات الكبيرة في مظهر الأشياء بالإضافة إلى التنوع في التدهور في بعض الإطارات. من الجانب الإيجابي، يمكن أن يستفيد الكشف في إطار معين من الفيديو من الإطارات الأخرى مقارنة بالصورة الثابتة. لذلك، كيفية تجميع الخصائص عبر الإطارات المختلفة هي نقطة محورية في مشكلة VID. معظم خوارزميات التجميع الحالية مخصصة للمكتشفات ذات المرحلتين. ومع ذلك، فإن هذه المكتشفات غالبًا ما تكون باهظة الحساب بسبب طبيعتها الثنائية. يقدم هذا العمل استراتيجية بسيطة وفعالة لمعالجة المخاوف أعلاه، والتي تتطلب تكاليف إضافية هامشية مع زيادة كبيرة في الدقة. بشكل ملموس، على عكس خط الأنابيب التقليدي ذو المرحلتين، نقوم باختيار المناطق الهامة بعد الكشف الأولي لتجنب معالجة مرشحات ذات جودة منخفضة بشكل كبير. بالإضافة إلى ذلك، نقيم العلاقة بين إطار الهدف والإطارات المرجعية لتوجيه عملية التجميع. قمنا بإجراء تجارب ودراسات تقليصية واسعة النطاق للتحقق من فعالية تصميمنا، وكشفت هذه التجارب عن تفوقه على أفضل الأساليب الحالية لـ VID في كل من الفعالية والكفاءة. يمكن لموديلنا المستند إلى YOLOX تحقيق أداء واعد (مثل 87.5٪ AP50 بمعدل أكثر من 30 إطارًا في الثانية على مجموعة بيانات ImageNet VID باستخدام GPU واحدة من نوع 2080Ti)، مما يجعله جذابًا للتطبيقات على نطاق كبير أو الزمن الحقيقي. التنفيذ بسيط، وقد جعلنا الرموز والموديلات التجريبية متاحة على الرابط \url{https://github.com/YuHengsss/YOLOV}.

YOLOV: جعل كاشفات الأشياء في الصور الثابتة ممتازة في كشف الأشياء في الفيديو | أحدث الأوراق البحثية | HyperAI