HyperAIHyperAI
منذ 18 أيام

DiffusionVID: إزالة الضوضاء من الصناديق الموضوعية باستخدام التكييف الفراغي-الزمني detección de objetos في الفيديو

{Ki-Seok Chung, Si-Dong Roh}
الملخص

تعاني العديد من كاشفات الكائنات في الصور الثابتة الحالية من تدهور الصورة في الفيديوهات، مثل الضباب الحركي، والانحراف البصري للكاميرا، والاختباء الجزئي. نقدم "DiffusionVID"، وهو كاشف كائنات فيديو مبني على نموذج التشتت (diffusion model)، يعتمد على التوجيه الفضائي الزمني. مستوحى من نموذج التشتت، يقوم DiffusionVID بتحسين صناديق الضوضاء العشوائية للحصول على الصناديق الأصلية للكائنات في تسلسل فيديو. ولتحسين فعالية تحسين الصندوق من الصور المتدهورة في الفيديوهات، استخدمنا ثلاث طرق مبتكرة: التحسين المتسلسل (cascade refinement)، والتوجيه الديناميكي باستخدام مجموعة أساسية (dynamic core-set conditioning)، وتحسين الدُفعة المحلية (local batch refinement). تُجمع بنية التحسين المتسلسل معلومات فعّالة من مناطق الكائنات، بينما يُعزز التوجيه الديناميكي باستخدام مجموعة أساسية فضائية-زمنية مُعدّلة جودة إزالة الضوضاء بشكل أكبر. أما تحسين الدُفعة المحلية، فيُحسّن بشكل كبير سرعة التحسين من خلال الاستفادة من التوازي في وحدة معالجة الرسومات (GPU). على معيار ImageNet-VID الشهير والمستخدم على نطاق واسع، حقق DiffusionVID باستخدام المُشَكّلات الأساسية ResNet-101 وSwin-Base أداءً مُذهلاً بـ 86.9 mAP @ 46.6 FPS و92.4 mAP @ 27.0 FPS على التوالي، وهو أداء من الطراز الأول عالميًا. وبقدر علم المؤلفين، فإن هذا هو أول كاشف كائنات فيديو مبني على نموذج التشتت. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/sdroh1027/DiffusionVID.