التعقب ثلاثي الأبعاد الكثيف الظاهري للأشياء باستخدام كاميرا واحدة

إطار موثوق ودقيق للتعقب ثلاثي الأبعاد ضروري لتوقع المواقع المستقبلية للأجسام المحيطة ووضع خطط للإجراءات الخاصة بالمراقب في العديد من التطبيقات مثل القيادة الذاتية. نقترح إطارًا يمكنه ربط الأجسام المتحركة بفعالية عبر الزمن وتقدير معلومات الصندوق القياسي ثلاثي الأبعاد الكاملة من تسلسل من الصور ثنائية الأبعاد تم التقاطها من منصة متحركة. يستخدم ترابط الأجسام التعلم التماثلي الكثيف التقريبية لتحديد الأجسام في مختلف المواقف والزوايا باستخدام فقط ملامح المظهر. وبعد الترابط الأولي ثنائي الأبعاد، نستخدم بشكل إضافي قواعد ترتيب العمق للصناديق القياسية ثلاثية الأبعاد لضمان الترابط الموثوق للInstances، ونستخدم توقع المسار ثلاثي الأبعاد القائم على الحركة لإعادة التعرف على المركبات المُغطاة. في النهاية، يجمع وحدة تعلم سرعة الجسم المستندة إلى LSTM معلومات المسار الطويل الأمد لتوقع الحركة بدقة أكبر. أظهرت التجارب على بيانات المحاكاة التي اقترحناها والمعايش الحقيقية، بما في ذلك مجموعات بيانات KITTI وnuScenes وWaymo، أن إطار التعقب لدينا يوفر ترابطًا وتعقبًا موثوقين للأجسام في سيناريوهات القيادة الحضرية. وعلى معيار Waymo Open، أنشأنا أول قاعدة مرجعية قائمة على الكاميرا في تحديات التعقب ثلاثي الأبعاد والكشف ثلاثي الأبعاد. يحقق خط أنابيب تعقب ثلاثي الأبعاد الكثيف التقريبي لدينا تحسينات مذهلة في معيار تعقب ثلاثي الأبعاد لـ nuScenes، مع تحسن في الدقة تصل إلى أربع مرات ونصف مقارنة بأفضل إرسال يعتمد فقط على الرؤية من بين جميع الطرق المنشورة. يمكن الوصول إلى كودنا وبياناتنا ونماذجنا المدربة عبر الرابط: https://github.com/SysCV/qd-3dt.