HyperAIHyperAI

Command Palette

Search for a command to run...

DiffusionVID: إزالة الضوضاء من الصناديق الموضوعية باستخدام التكييف الفراغي-الزمني detección de objetos في الفيديو

Ki-Seok Chung Si-Dong Roh

الملخص

تعاني العديد من كاشفات الكائنات في الصور الثابتة الحالية من تدهور الصورة في الفيديوهات، مثل الضباب الحركي، والانحراف البصري للكاميرا، والاختباء الجزئي. نقدم "DiffusionVID"، وهو كاشف كائنات فيديو مبني على نموذج التشتت (diffusion model)، يعتمد على التوجيه الفضائي الزمني. مستوحى من نموذج التشتت، يقوم DiffusionVID بتحسين صناديق الضوضاء العشوائية للحصول على الصناديق الأصلية للكائنات في تسلسل فيديو. ولتحسين فعالية تحسين الصندوق من الصور المتدهورة في الفيديوهات، استخدمنا ثلاث طرق مبتكرة: التحسين المتسلسل (cascade refinement)، والتوجيه الديناميكي باستخدام مجموعة أساسية (dynamic core-set conditioning)، وتحسين الدُفعة المحلية (local batch refinement). تُجمع بنية التحسين المتسلسل معلومات فعّالة من مناطق الكائنات، بينما يُعزز التوجيه الديناميكي باستخدام مجموعة أساسية فضائية-زمنية مُعدّلة جودة إزالة الضوضاء بشكل أكبر. أما تحسين الدُفعة المحلية، فيُحسّن بشكل كبير سرعة التحسين من خلال الاستفادة من التوازي في وحدة معالجة الرسومات (GPU). على معيار ImageNet-VID الشهير والمستخدم على نطاق واسع، حقق DiffusionVID باستخدام المُشَكّلات الأساسية ResNet-101 وSwin-Base أداءً مُذهلاً بـ 86.9 mAP @ 46.6 FPS و92.4 mAP @ 27.0 FPS على التوالي، وهو أداء من الطراز الأول عالميًا. وبقدر علم المؤلفين، فإن هذا هو أول كاشف كائنات فيديو مبني على نموذج التشتت. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/sdroh1027/DiffusionVID.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp