HyperAIHyperAI

Command Palette

Search for a command to run...

MCBLT: تتبع متعدد الكاميرات لعدة أشياء في الفيديوهات الطويلة ثلاثية الأبعاد

Yizhou Wang Tim Meinhardt Orcun Cetintas Cheng-Yen Yang Sameer S. Pusegaonkar Benjamin Missaoui Sujit Biswas Zheng Tang Laura Leal-Taixé

الملخص

الإدراك البصري للأجسام من كاميرات متعددة الزوايا مهم للغاية للأنظمة الذكية، خاصة في البيئات الداخلية مثل المستودعات، المتاجر التجزئة، والمستشفيات. تعتمد معظم الطرق التقليدية للكشف عن الأهداف المتعددة باستخدام الكاميرات المتعددة (MTMC) وتتبعها على تقنيات الكشف عن الأجسام ثنائية الأبعاد (2D)، تتبع الأجسام المتعددة من زاوية واحدة (MOT)، وإعادة التعرف بين الزوايا المختلفة (ReID)، دون معالجة المعلومات ثلاثية الأبعاد الهامة بشكل صحيح من خلال تجميع الصور متعددة الزوايا. في هذا البحث، نقترح إطارًا للكشف عن الأجسام وتعقبها ثلاثي الأبعاد يُسمى MCBLT، والذي يقوم أولاً بتجميع الصور متعددة الزوايا مع معلمات الت head="calibration" head> head="calibration" head> head="calibration" head> head="calibration" head> head="calibration" head> head="calibration" head>ضبط الكاميرا اللازمة للحصول على اكتشافات أجسام ثلاثية الأبعاد في عرض الطائر (BEV). ثم نقدم شبكات عصبية رسمية هرمية (GNNs) لتتبع هذه الاكتشافات الثلاثية الأبعاد في عرض الطائر للحصول على نتائج تتبع MTMC. بخلاف الطرق الموجودة حاليًا، يتميز MCBLT بقدرته العامة المثيرة للإعجاب عبر مشاهد مختلفة وأوضاع كاميرا متنوعة، مع قدرة استثنائية على التعامل مع الجمع طويل المدى. نتيجة لذلك، حقق الإطار المقترح MCBLT أفضل مستوى جديد في مجموعة بيانات AICity'24 بمعدل HOTA يبلغ 81.2281.2281.22، وفي مجموعة بيانات WildTrack بمعدل IDF1 يبلغ 95.695.695.6.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp