HyperAIHyperAI
منذ 2 أشهر

MCBLT: تتبع متعدد الكاميرات لعدة أشياء في الفيديوهات الطويلة ثلاثية الأبعاد

Wang, Yizhou ; Meinhardt, Tim ; Cetintas, Orcun ; Yang, Cheng-Yen ; Pusegaonkar, Sameer Satish ; Missaoui, Benjamin ; Biswas, Sujit ; Tang, Zheng ; Leal-Taixé, Laura
MCBLT: تتبع متعدد الكاميرات لعدة أشياء في الفيديوهات الطويلة ثلاثية الأبعاد
الملخص

الإدراك البصري للأجسام من كاميرات متعددة الزوايا مهم للغاية للأنظمة الذكية، خاصة في البيئات الداخلية مثل المستودعات، المتاجر التجزئة، والمستشفيات. تعتمد معظم الطرق التقليدية للكشف عن الأهداف المتعددة باستخدام الكاميرات المتعددة (MTMC) وتتبعها على تقنيات الكشف عن الأجسام ثنائية الأبعاد (2D)، تتبع الأجسام المتعددة من زاوية واحدة (MOT)، وإعادة التعرف بين الزوايا المختلفة (ReID)، دون معالجة المعلومات ثلاثية الأبعاد الهامة بشكل صحيح من خلال تجميع الصور متعددة الزوايا. في هذا البحث، نقترح إطارًا للكشف عن الأجسام وتعقبها ثلاثي الأبعاد يُسمى MCBLT، والذي يقوم أولاً بتجميع الصور متعددة الزوايا مع معلمات الت head="calibration" head> head="calibration" head> head="calibration" head> head="calibration" head> head="calibration" head> head="calibration" head>ضبط الكاميرا اللازمة للحصول على اكتشافات أجسام ثلاثية الأبعاد في عرض الطائر (BEV). ثم نقدم شبكات عصبية رسمية هرمية (GNNs) لتتبع هذه الاكتشافات الثلاثية الأبعاد في عرض الطائر للحصول على نتائج تتبع MTMC. بخلاف الطرق الموجودة حاليًا، يتميز MCBLT بقدرته العامة المثيرة للإعجاب عبر مشاهد مختلفة وأوضاع كاميرا متنوعة، مع قدرة استثنائية على التعامل مع الجمع طويل المدى. نتيجة لذلك، حقق الإطار المقترح MCBLT أفضل مستوى جديد في مجموعة بيانات AICity'24 بمعدل HOTA يبلغ $81.22$، وفي مجموعة بيانات WildTrack بمعدل IDF1 يبلغ $95.6$.

MCBLT: تتبع متعدد الكاميرات لعدة أشياء في الفيديوهات الطويلة ثلاثية الأبعاد | أحدث الأوراق البحثية | HyperAI